医学科研课堂丨统计说说十谈谈Logi - 肺癌病因

TUhjnbcbe - 2021/6/20 13:10:00

临床研究设计中会有两项或者多项指标/因素的相关性分析，而常常用到统计学方法中的Logistic回归分析。今天刘岭教授就给我们讲讲这个神秘又常见的方法。

概述

Logistic回归分析主要用于研究分类反应变量与诸多自变量（影响因素）之间关系的一种多变量分析方法，常用于进行疾病的病因分析。Logistic回归按照反应变量的类型可分为：二分类反应变量的logistic回归、多分类有序反应变量的logistic回归、多分类无序反应变量的logistic回归；按照研究设计的类型可分为：研究对象未经过匹配的非条件logistic回归和研究对象经匹配的条件logistic回归。

今天所谈的是最为常见的二分类反应变量的非条件logistic回归。

例调查30名成年人，记录了与肺癌发病有关的危险因素情况，数据如表1所示。试分析各因素与肺癌之间的关系。

数据分析思考

1.认识数据：该例有5个变量分别是性别、吸烟、年龄、地区和结果（是否肺癌）；其中原因（即协变量）有4个变量（性别、吸烟、年龄和地区）。变量类型有连续性变量（年龄）和分类变量（性别、吸烟和地区）；结局指标（是否肺癌（分类变量））。2.研究目的是以肺癌为结局：研究在众多影响因素（协变量）共存的情况下排除混杂因素的影响，筛选其危险因素。3.变量赋值情况必须说明：连续性变量就为原始数据（本例：年龄），分类变量数值化处理（原则上赋值阳性比阴性多1）。名义变量取值情况：具体操作

1．数据格式30行5列（因变量：是否肺癌；协变量：性别、吸烟、年龄、地区）（图1）。

图1非条件Logistic回归数据输入格式

2.操作步骤分析(A)→回归(R)→二元Logistic弹出“Logistic回归”主对话框（图2）。

图2Logistic回归主对话框

?因变量(D)：选入因变量，本例为“是否肺癌”。?协变量(C)：选入自变量，本例为“性别/吸烟/年龄/地区”。（可选入多个协变量，既可选入单个变量，亦可选入交互变量）★方法(M)：自变量筛选方法，下拉菜单中有7种方法可供选择。输入—强迫引入法，所有自变量全部进入方程（系统默认）。本例选此项。向前：LR—基于偏最大似然估计的前进法。逐步回归常用此法。◇分类(G)：哑变量设置，用于多分类协变量。◇选项(O)：点击“选项(O)”按钮，弹出“Logistic回归：选项”对话框（图3）。

图3Logistic回归：选项对话框

★统计和图

Exp(B)的置信区间：优势比OR的95%（系统默认）置信区间。

★步进概率：逐步筛选变量的概率水准。进入(N)：以P≤0.05为选入变量的标准（系统默认）。除去(V)：以P0.10为剔除变量的标准（系统默认）。（筛选变量时，可适当放宽条件，注意引入变量的检验水准要小于或等于剔除变量的检验水准）点击“继续(C)”回到主对话框，点击“确定”。主要输出结果及分析

（1）预测分类（表2）

表2给出了本例的预测分类说明：对疾病结局是否死亡进行预测分类，以预测概率0.5为判别分界点（cutvalue），其中判对率为90%，即（14+13）/30=0.90。灵敏度为86.7%，特异度为93.3%，阳性预测值为92.9%，阴性预测值为87.5%。

（2）参数估计及检验（表3）（此表最重要）表3给出了本例的参数估计及检验说明：本例拟合过程中“吸烟、年龄”的P0.05；“吸烟、年龄”对是否患肺癌的相对危险度（OR）分别为53.和1.。根据回归方程中的估计值所得回归方程为：

本例采用的全变量模型中，变量性别与地区没有统计学意义，故采用逐步回归筛选自变量。

★方法(M)：自变量筛选方法，下拉菜单中选“向前：LR”。

（3）逐步回归参数估计及检验（表4）（此表最重要）

表4给出了本例的逐步回归参数估计及检验结果。经过两步筛选，先后将年龄和吸烟2个变量筛选进入模型，得到模型2。吸烟和年龄均是危险因素，其中吸烟的人患肺癌的危险为不吸烟的人的20.倍。

报告中Logistic回归分析的表述形式

本研究采用二分类非条件logistic回归分析评估性别、吸烟、年龄和地区对研究对象患肺癌的影响。分析结果：该模型能够正确分类90.0%的研究对象，模型灵敏度为86.7%，特异度为93.3%，阳性预测值为92.9%，阴性预测值为87.5%。模型纳入的4个自变量中，吸烟（OR=20.，OR值95%置信区间为1.~.，P=0.）和年龄（OR=1.，OR值95%置信区间为1.~1.，P=0.）有统计学意义，是肺癌的独立危险因素，其中吸烟的人患肺癌的危险为不吸烟的人的20.倍。

技术总结

1．Logistic回归分析的数据要求：因变量为分类变量；自变量可以是连续性变量/也可以是分类变量（有序/无序都可），为了方便解释，最好将连续性变量转化成分类变量（有序/无序都可），当然这种转化应符合医学专业的解释和分类。2.Logistic回归分析最常见分析模式：首先把所有因素每个都做个单因素分析，这个单因素可以t检验/卡方检验/也可以是单因素Logistic回归等，筛掉一些可能无意义的变量，然后把单因素分析有意义的变量，再进行多因素分析，这样能够保证结果更加可靠稳定。即使样本量够大，也不建议直接将所有变量放入方程进行分析，最好要弄清楚变量之间的相互关系。3.筛选变量时：（1）单因素有统计学意义的变量，P0.05；（12）单因素无统计学意义的变量，但可以将P值放宽到0.1甚至0.2（这里P值并不十分重要），主要是避免漏掉一些可能有意义的重要变量；（3）单因素无统计学意义的变量，但有临床意义，或者前期文献报道过有意义的变量，或者是本研究主要考虑的变量。不过在文章写作时在单因素分析的那一步，应该就检验水准说明清楚。4.分类变量的赋值是很重要的，数据的编码可能会严重地影响结论的可解释性，大家可以不妨试一下。多分类变量建议哑变量设置：主对话框中“分类(G)”。5．对于连续性变量，如果仅仅为了调整该变量带来的混杂，直接放入模型进行分析（不解释OR值）；若关心该变量对因变量的影响程度（考虑解释OR值），建议将连续性变量转化为分类变量，这样结果解释更符合医学专业。6.筛选方法不一样，分析结果也不一样。本例采用了两种方法：全变量模型（表3）和“向前：LR”逐步回归（表4），分析结果是不完全一样的，建议采用逐步回归的结果。7.Logistic回归分析一般不列模型方程，结果针对OR值进行危险因素或保护因素的解释。8.统计分析最后所得到的模型一定要结合专业知识来判断，统计最佳并不一定是专业最佳，只有建立在专业的合理可解释上，模型才有实际的临床意义。

重要提示

有需要本例数据的小伙伴，可向后台申请（申请数据+邮箱）

本数据只是用于统计方法的应用举例，不代表临床效果

撰稿：刘岭

约稿编辑：刘芹

排版：毕丽

审核：钱程华

精彩推荐医学科研课堂丨统计说说（九）：生存资料的COX回归分析医学科研课堂丨统计说说（八）—基本统计学方法之等级资料的非参数检验医学科研课堂丨统计说说（七）：基于分类变量的卡方检验（二）医学科研课堂丨统计说说（六）：基于分类变量的卡方检验（一）引领，创新

科研学习“愚人”征集令—年护理科研主题培训

点个

在看

你最好看

预览时标签不可点收录于话题#个上一篇下一篇