使用机器学习建立慢性阻塞性肺疾病患者重度气流受限风险克劳德特模型研究

发布时间:2025/08/13 12:17 来源:雨花台家居装修网

不受试者消化道功能支架具体情况。

参见GOLD（2019版）指南[5]，本深入研究运用于消化道功能加权里面第1秒用力呼气量占去预期个数的百分比（FEV1%）来确定COPD高血压水汽不受限于相对，轻度水汽不受限于为FEV1%≥80%；里面度水汽不受限于为50%≤FEV1%<80%；直度水汽不受限于为30%≤FEV1%<50%；极直度水汽不受限于为FEV1%<30%。

为创建后果数学模型，以FEV1%=50%为临界阈个数，将高血压包含有直度水汽不受限于后果者（直度、极直度FEV1%<50%）赋个数为1，无直度水汽不受限于后果者（轻度、里面度FEV1%≥50%）赋个数为0。

1.3 恒星质量管控

由经统一专业训练遴选合格的1名硕士学位深入博士生、1名消化道功能技师和4名本科且有5年以上呼吸科工作经验的护士组成科研小组成功完成题目设计、题目深入调查、消化道功能核查。题目适用统一教导亚语，由高血压匿名个人资料。若遇高血压未自；大个人资料，由深入调查员不予任何诱导下祈祷题目条目，再让高血压独立认真单单条目结果判断。消化道功能核查运用于完全相同设备和完全相同技师标准检查。深入调查完毕后，在场回收题目。数据集载入、脱敏及分析并非完全相同其他部门，深入调查员双人载入题目结果，另一成员对数据集成功完成脱敏检视后交予数据集分析其他部门。本深入研究对20则有COPD高血压成功完成预深入调查，在预深入调查制定过程里面存有的疑虑加以改写基础。基础后，开始年末深入调查与数据集收集。

1.4 道德观指明

在数据集收集之前，深入研究者将本深入研究的内容、目的告知高血压，经高血压同意后，给予书面知情同意书。本深入研究非常少采集高血压诊断及针灸数据，不采取干预措施，因此高血压负面影响后果低。

1.5 数据集检视

以高血压直度及以上水汽不受限于相对（FEV1%<50%）作为数学模型的输单单参数，其余50个参数作为匹配参数，成功完成数据集检视及数学模型深入研究。

1.5.1 数据集查核及初步挑选

查核数据集的参数相似性，并按既定规则成功完成初步挑选：（1）删去每列数据集紊乱占去比>90%的参数；（2）删去每列单个大类比则有>90%的参数；（3）删去每列变异系数（variable coefficient，CV）<0.05的参数。

1.5.2 紊乱个数检视

运用于不装入、简单装入、随机荒野装入和换装的随机荒野装入4种作法；大紊乱个数装入。

1.5.3 相似性挑选

本深入研究适用不挑选、Lasso挑选、Boruta挑选3种相似性挑选作法成功完成数据集集的相似性提取。适用Lasso挑选、Boruta挑选生成相似性关键性数据集，该数据集反映各匹配参数对结果假设的益处。经过4种紊乱个数检视和3种相似性挑选作法，总共给予12个检视后的数据集集。

1.6 数学模型创建

适用Python Scikit-Learn库里面train_test_split包将数据集包含80%操练集和20%试验中集。操练集数据集用于数学模型操练，试验中集数据集用于赞赏和同样数学模型。适用17种作法学和1种内置修习解法（Ensemble Learning）对经过预检视的12个数据集集分别建模。17种作法学解法还包括：逻辑回归（Logistic Regression）、随机二阶下降（SGD）、K最近邻（KNN）、决策果树（Decision Tree）、高斯简练形式化（Gaussian Naïve Bayes）、伯努利简练形式化（Bernoulli Naive Bayes）、数列简练形式化（Multinomial Naive Bayes）、支持线性机（SVM）、二次判别分析（QDA）、随机荒野（Random Forest）、温和随机果树（Extra Tree）、线性判别分析（LDA）、被动攻击（Passive Aggressive）、渐进减弱（AdaBoost）、引导聚集（Bagging）、二阶提升（Gradient Boosting）、温和二阶提升（XGBoost）。内置数学模型的结果由最佳的之前5个数学模型投票产生。

1.7 数学模型赞赏

以ROC斜率下km（AUC）、准确率、精确率、解任率、F1个数作为数学模型审计的加权，在各加权结果不一致时，以AUC作为主要参见。在操练集里面，适用十折复合证明法成功完成数学模型审计。在试验中集里面，运用于Bootstrapping解法直量化200次成功完成外部证明。运用于试验中集数据集的赞赏加权作为最佳数学模型同样依据。

1.8 比对量证明

适用挑选的最佳数学模型，随机适用操练集10%、20%……100%的数据集操练数学模型，适用试验中集数据集对操练的数学模型假设可靠性成功完成赞赏。该作法直复100次，观察操练比对量的极大变化对数学模型假设可靠性的不良影响。数学模型创建和所示形图形运用于Python3.7.3+Pycharm搭建开发计划环境，适用Scikit-Learn库和Xgboost库创建作法学数学模型。数学模型数据集预检视、数学模型创建、赞赏及同样流程见所示1。

所示1 基于作法学COPD高血压水汽不受限于相对后果橙色数学模型创建流程

Figure 1 Flowchart of risk prediction model for COPD patients with airflow limitation based on machine learning

1.9 流；大病学作法

适用R 4.0.3软件对数据集成功完成分析。基准档案以（

±s）暗示，在不尽完全相同数据集预检视作法相比较里面，若数据集正态分布及方差齐性，均会除此以外相比较运用于方差分析；若数据集为非正态分布或方差不齐，均会除此以外相比较运用于Kruskal-Wallis检验。计数档案以频数、百分比暗示。以P<0.05为区别有流；大病学意义。

2 结果2.1 深入研究具体来说的一般针灸加权

本深入研究总共发放题目432份，回收题目418份，有效率回收率为96.7%。划入的418则有COPD高血压里面，女46则有，男372则有；年岁（63.7±10.9）岁；稳定期304则有，急性加直期114则有；水汽不受限于轻、里面度有206则有（49.3%），直、极直度有212则有（50.7%）。总共收集匹配参数50个，输单单参数1个，参数具体情况见表格1。

表格1 COPD高血压一般针灸加权（n=418）

Table 1 General information of the included COPD patients（n=418）

2.2 数据集查核及初步挑选结果

相符合数据集查核和初筛法则，移出12个匹配参数。参数移出的原因摘要见表格2。

表格2 总数据集集参数移出表格

Table 2 Total data set variable elimination

2.3 不良影响水汽不受限于的关键各种因素

经4种紊乱个数检视和3种相似性挑选后，本深入研究总共给予12个检视后的数据集集及12种不良影响水汽不受限于各种因素的益处先后顺序，近期，mMRC层次、年岁、BMI、吸食两书（有、无）、CAT评价、发烧（有、无）在参数相似性先后顺序里面住在之前茅，是构造数学模型的关键加权，对结果假设有关键性作用。其里面，采取不装入、Lasso挑选作法后，给予的各种因素益处先后顺序见所示2。mMRC层次、吸食两书（有、无）、发烧（有、无）为位居之前三的假设遗传物质，mMRC层次占去相似性益处的54.15%。适用不装入、Boruta挑选作法后，给予的各种因素益处先后顺序见所示3。CAT评价、年岁、mMRC层次为位居之前三的假设遗传物质，CAT评价占去相似性益处的26.64%。

所示2 不装入、Lasso挑选作法相似性益处

Figure 2 Unfilled，Lasso screened feature importance maps

所示3 不装入、Boruta挑选作法相似性益处

Figure 3 Unfilled、Boruta screened feature importance maps

2.4 橙色数学模型创建与赞赏

适用17种作法学和1个内置修习解法对12个数据集集分别建模，总共得216个假设数学模型。17种作法学解法十折复合证明结果见表格3。不尽完全相同解法假设可靠性相比较，区别有流；大病学意义（P<0.05），随机二阶下降解法的平均AUC最大，为（0.738±0.089）。适用Bootstrapping解法对试验中集成功完成外部证明，结果见表格4。不尽完全相同解法所得数学模型的假设可靠性相比较，区别有流；大病学意义（P<0.05），内置修习解法的平均AUC最大为（0.757±0.057）。本深入研究利用Bootstrapping解法对4种紊乱个数检视和3种相似性挑选假设可靠性的赞赏，结果见表格5，表格6。当不装入和Lasso挑选时，可提高数学模型的可靠性，区别有流；大病学意义（P<0.05）。

表格3 17种作法学解法十折复合证明结果

Table 3 Ten fold cross validation results of 17 machine learning algorithms

表格4 17种作法学解法外部证明结果

Table 4 External verification results of 17 machine learning algorithms

表格5 不尽完全相同紊乱个数检视作法在外部证明的结果

Table 5 The results of external validation of different missing value processing methods

表格6 不尽完全相同相似性挑选作法在外部证明的结果

Table 6 The results of external validation of different feature screening methods

2.5 橙色数学模型的同样

适用试验中集数据集对216个作法学数学模型成功完成试验中，同样AUC最大的数学模型为最佳数学模型。AUC之前5个最大的数学模型假设可靠性加权见表格7，AUC为0.790 9，准确率为75.90%，精确率为75.00%，解任率为78.57%，F1个数为0.767 4。ROC斜率所示和P-R斜率所示见所示4，所示5。

所示4 5个最佳后果橙色数学模型的ROC斜率

Figure 4 ROC curves of the five optimal risk prediction models

所示5 5个最佳后果橙色数学模型的P-R斜率

Figure 5 P-R curves of the five optimal risk prediction models

表格7 5个最佳的COPD高血压水汽不受限于相对后果橙色数学模型摘要

Table 7 Summary of 5 best risk prediction models for airflow limitation in patients with COPD

2.6 比对量证明

同样最佳数学模型对应的解法作为比对量证明的解法。将数据集集按照8∶2划包含操练集和试验中集。对操练集比对分别随机抽取10%、20%...100%，成功完成数学模型操练，该过程直复100次。适用试验中集数据集对数学模型成功完成试验中，创建AUC与比对量的折线所示，见所示6，近期，当比对量抵达70%左右，斜率趋向平直。提示此时比对量对假设可靠性的提升不再增大。

所示6 COPD高血压水汽不受限于相对后果橙色数学模型的比对量证明

Figure 6 Sample size validation diagram of the risk prediction model for the degree of airflow limitation in COPD patients

3 研讨

随着高血压水汽不受限于致使相对增大，COPD致使的临死亡后果也骤然增大。因而，明确水汽不受限于相对并制定恰当的干预目的，具关键性意义[7]。本深入研究通过借助于COPD高血压直度水汽不受限于相对的后果数学模型，来假设高血压水汽不受限于致使相对。数据集通过初筛、紊乱个数装入、参数相似性挑选等数据集挖掘过程，以AUC、准确率、精确率、解任率、F1个数作为之下证明、最佳数学模型、外部证明的赞赏加权，同样单单内置修习数学模型为最佳数学模型。本深入研究结果与LIU等[8]的深入研究一致。内置修习[9]通过重新组合多个修习解法来达到更加佳的假设展现，其适用多个修习解法总共同决策比适用单个修习解法的假设变得准确，具一定的针灸应用价个数。董泉明等[10]利用多元线性数学模型创建了FEV1橙色数学模型，但该深入研究仍未划入癌症相关各种因素加以探讨。本深入研究在之今人深入研究的基础上，示范考虑了癌症相关各种因素的参数用于借助于水汽不受限于相对的分类数学模型。ZAFARI等[11]开发计划了一种消化道功能下降的核心内容假设数学模型，但该深入研究非常少划入轻里面度COPD吸食者，对致使的COPD高血压未假设。另外，几项深入研究均是对消化道功能FEV1绝对个数成功完成的假设，而FEV1%则是相对核心内容的赞赏加权，在针灸上可作更加广，更加不受到深入研究者的关注，因此，更加有假设价个数[12，13]。

本深入研究里面数学模型借助于的关键加权有mMRC层次、年岁、BMI、CAT评价、否有吸食两书和发烧。胃支架功能加权与年岁、吸食两书有关，这与既往深入研究一致[14，15，16]。COPD高血压多为幼儿，随年岁增大，呼吸肌闭合力增加，胸廓和胃的柔性回缩力下降，支气管毛细萎缩、管腔狭窄，致使胃支架阻力增大，水汽低速减慢。加之，高血压吸食不良影响胃微生态群，增加了胃部防御能力[17]。消化道功能与BMI有关，与之外学者深入研究吻合[18，19]。GRIGSBY等[20]深入研究表格明，在发展华南地区家，BMI越低，消化道功能越差。然而，有学者指单单FEV1与BMI无关，非常少与cm呈正相关[10，14]。深入研究结果区别可能因划入人群的观念人口学相似性不尽完全相同归因于。消化道功能还与mMRC层次和CAT评价存有显著关联[5，21，22]。基于高血压消化道功能的假设转为为癌症恶化后果和患者的审计，该审计可用于基础COPD水汽不受限于相对分级。

真实世界深入研究里面，数据集紊乱已带入；也见且难以避免的致使疑虑。在数据集分析里面，若因小之外的数据集紊乱而删去该高血压整个数据，将会极大损失非常少有数据；若因过多的数据丢失加入相似性，可能反倒增大噪声，不良影响最后结果。本深入研究通过初步挑选删去数据集紊乱占去比大于90%的参数后成功完成装入。而对于悉数数据集否所才可装入，以及怎样有效率装入，曾一度今日，也尚仍未达成总共识。最；也用的装入作法众所周知用均个数、里面值或kHz最多的数据集成功完成插补，但是精确度也高于。STEKHOVEN等[23]创建了随机荒野的增量插补作法，并取得了很好的装入效果。随机荒野能有效率检视混合并不一定数据集装入，比单一并不一定装入作法不具优势。但本深入研究近期，不尽完全相同的装入作法对数学模型可靠性不良影响具流；大病学区别（P<0.05）。在不装入数据集时，得到的橙色数学模型效果更加佳，致使此结果的原因为：本深入研究里面不装入作法与既往深入研究里面不装入作法不尽完全相同，这是一种最大限度地保留原始数据集集成功完成分析的作法，所以得到的效果最佳。

本深入研究参数的相似性挑选运用于了不挑选、Lasso挑选、Boruta挑选。不尽完全相同的挑选作法可增加相似性使用量、降维，增加修习的难度，提升数学模型的效率，减弱数学模型形式化能力。本深入研究不尽完全相同的相似性挑选作法对数学模型可靠性存有不良影响。其里面，不挑选是为了划入紊乱个数检视后的所有参数，了解数学模型假设效果。然而，若只同样之外相似性借助于数学模型，可以大大增加修习解法的运；大时除此以外，也可以增大数学模型的可解释性。Boruta挑选是同样单单所有与因参数具相关性的相似性集合，可以更加全面性的理解因参数的不良影响各种因素。Lasso挑选相比于普通最小二乘至少，可在众多参数时快速有助于提取单单关键性参数来精简数学模型。本深入研究假设检验单各种因素分析里面，Lasso挑选在数学模型里面展现较好，平均AUC为（0.719±0.094），但在5个最佳数学模型里Lasso挑选并仍未展现单单较好的假设可靠性。内置修习、不装入、Boruta挑选数学模型优于内置修习、不装入、Lasso挑选数学模型。

本深入研究创新性之处：（1）国内尚仍未发现较成熟的COPD高血压直度水汽不受限于后果橙色数学模型，本深入研究员创建的作法学数学模型为COPD高血压癌症审计缺少除此以外决策依据。（2）迄今为止，许多关于作法学不足之处的深入研究；也适用某一种或几种作法学解法创建数学模型，并很少运用于不尽完全相同的数据集预检视作法成功完成多样化建模来相比较数学模型假设可靠性。然而，本深入研究通过不尽完全相同的数据集清除作法，运用于多达216种解法，经十折复合证明，创建了2 160个数学模型。同时，本深入研究运用于了先进的Bootstrapping解法通过直量化将小比对数据集转化成大比对数据集，提高数学模型假设精度，保证数学模型的可靠度。（3）本深入研究赞赏了每一个假设参数对每一种数学模型可靠性的不良影响，与其他机器数学模型相比变得全面性、不具说服力。（4）基于比对量证明的作法，探究比对量与AUC之除此以外的关联，为假设深入研究的比对分析缺少了参见。

本深入研究值得注意：（1）本深入研究在假设遗传物质不足之处，仍未划入实验室和CT核查数据集，其相关性还有待必要性深入探究。（2）本深入研究为单的里面悲深入研究，深入研究具体来说非常少限于COPD出院高血压，存有一定同样偏倚，后续才可必要性开展多的里面悲、大比对证明。

4 得出结论

综上所述，内置修习数学模型对COPD高血压直度水汽不受限于后果的橙色效果良好，mMRC层次、年岁、BMI、CAT评价、否有吸食两书和发烧是不良影响水汽不受限于的关键各种因素。未成功完成消化道功能试验中者，借助直度水汽不受限于后果橙色数学模型可有助于药剂师审计高血压的消化道功能，在有效率增加COPD高血压仍将来后果和负担不足之处发挥极大潜能。

不法；大为

本文无不法；大为。

参见典籍近于

。

西安肿瘤医院挂号咨询
重庆看白癜风去哪好
沈阳肿瘤医院排名
脑部缺氧
慢性支气管炎咳嗽老不好怎么办
心绞痛
甲流引起的咳嗽吃什么药
五官面部整形

上一篇：多喝牛奶可以让女儿长高，你家女儿的牛奶选的对吗？这几点很重要

下一篇：国外篇！2021年度风湿免疫领域指南/领域专家共识汇总 | 指南共识