临床研究设计中会有两项或者多项指标/因素的相关性分析,而常常用到统计学方法中的Logistic回归分析。今天刘岭教授就给我们讲讲这个神秘又常见的方法。
概述
Logistic回归分析主要用于研究分类反应变量与诸多自变量(影响因素)之间关系的一种多变量分析方法,常用于进行疾病的病因分析。Logistic回归按照反应变量的类型可分为:二分类反应变量的logistic回归、多分类有序反应变量的logistic回归、多分类无序反应变量的logistic回归;按照研究设计的类型可分为:研究对象未经过匹配的非条件logistic回归和研究对象经匹配的条件logistic回归。今天所谈的是最为常见的二分类反应变量的非条件logistic回归。
例调查30名成年人,记录了与肺癌发病有关的危险因素情况,数据如表1所示。试分析各因素与肺癌之间的关系。
数据分析思考1.认识数据:该例有5个变量分别是性别、吸烟、年龄、地区和结果(是否肺癌);其中原因(即协变量)有4个变量(性别、吸烟、年龄和地区)。变量类型有连续性变量(年龄)和分类变量(性别、吸烟和地区);结局指标(是否肺癌(分类变量))。2.研究目的是以肺癌为结局:研究在众多影响因素(协变量)共存的情况下排除混杂因素的影响,筛选其危险因素。3.变量赋值情况必须说明:连续性变量就为原始数据(本例:年龄),分类变量数值化处理(原则上赋值阳性比阴性多1)。名义变量取值情况:具体操作1.数据格式30行5列(因变量:是否肺癌;协变量:性别、吸烟、年龄、地区)(图1)。图1非条件Logistic回归数据输入格式
2.操作步骤分析(A)→回归(R)→二元Logistic弹出“Logistic回归”主对话框(图2)。图2Logistic回归主对话框
?因变量(D):选入因变量,本例为“是否肺癌”。?协变量(C):选入自变量,本例为“性别/吸烟/年龄/地区”。(可选入多个协变量,既可选入单个变量,亦可选入交互变量)★方法(M):自变量筛选方法,下拉菜单中有7种方法可供选择。输入—强迫引入法,所有自变量全部进入方程(系统默认)。本例选此项。向前:LR—基于偏最大似然估计的前进法。逐步回归常用此法。◇分类(G):哑变量设置,用于多分类协变量。◇选项(O):点击“选项(O)”按钮,弹出“Logistic回归:选项”对话框(图3)。图3Logistic回归:选项对话框
★统计和图Exp(B)的置信区间:优势比OR的95%(系统默认)置信区间。
★步进概率:逐步筛选变量的概率水准。进入(N):以P≤0.05为选入变量的标准(系统默认)。除去(V):以P0.10为剔除变量的标准(系统默认)。(筛选变量时,可适当放宽条件,注意引入变量的检验水准要小于或等于剔除变量的检验水准)点击“继续(C)”回到主对话框,点击“确定”。主要输出结果及分析(1)预测分类(表2)表2给出了本例的预测分类说明:对疾病结局是否死亡进行预测分类,以预测概率0.5为判别分界点(cutvalue),其中判对率为90%,即(14+13)/30=0.90。灵敏度为86.7%,特异度为93.3%,阳性预测值为92.9%,阴性预测值为87.5%。
(2)参数估计及检验(表3)(此表最重要)表3给出了本例的参数估计及检验说明:本例拟合过程中“吸烟、年龄”的P0.05;“吸烟、年龄”对是否患肺癌的相对危险度(OR)分别为53.和1.。根据回归方程中的估计值所得回归方程为:本例采用的全变量模型中,变量性别与地区没有统计学意义,故采用逐步回归筛选自变量。
★方法(M):自变量筛选方法,下拉菜单中选“向前:LR”。
(3)逐步回归参数估计及检验(表4)(此表最重要)
表4给出了本例的逐步回归参数估计及检验结果。经过两步筛选,先后将年龄和吸烟2个变量筛选进入模型,得到模型2。吸烟和年龄均是危险因素,其中吸烟的人患肺癌的危险为不吸烟的人的20.倍。
报告中Logistic回归分析的表述形式本研究采用二分类非条件logistic回归分析评估性别、吸烟、年龄和地区对研究对象患肺癌的影响。分析结果:该模型能够正确分类90.0%的研究对象,模型灵敏度为86.7%,特异度为93.3%,阳性预测值为92.9%,阴性预测值为87.5%。模型纳入的4个自变量中,吸烟(OR=20.,OR值95%置信区间为1.~.,P=0.)和年龄(OR=1.,OR值95%置信区间为1.~1.,P=0.)有统计学意义,是肺癌的独立危险因素,其中吸烟的人患肺癌的危险为不吸烟的人的20.倍。
技术总结
1.Logistic回归分析的数据要求:因变量为分类变量;自变量可以是连续性变量/也可以是分类变量(有序/无序都可),为了方便解释,最好将连续性变量转化成分类变量(有序/无序都可),当然这种转化应符合医学专业的解释和分类。2.Logistic回归分析最常见分析模式:首先把所有因素每个都做个单因素分析,这个单因素可以t检验/卡方检验/也可以是单因素Logistic回归等,筛掉一些可能无意义的变量,然后把单因素分析有意义的变量,再进行多因素分析,这样能够保证结果更加可靠稳定。即使样本量够大,也不建议直接将所有变量放入方程进行分析,最好要弄清楚变量之间的相互关系。3.筛选变量时:(1)单因素有统计学意义的变量,P0.05;(12)单因素无统计学意义的变量,但可以将P值放宽到0.1甚至0.2(这里P值并不十分重要),主要是避免漏掉一些可能有意义的重要变量;(3)单因素无统计学意义的变量,但有临床意义,或者前期文献报道过有意义的变量,或者是本研究主要考虑的变量。不过在文章写作时在单因素分析的那一步,应该就检验水准说明清楚。4.分类变量的赋值是很重要的,数据的编码可能会严重地影响结论的可解释性,大家可以不妨试一下。多分类变量建议哑变量设置:主对话框中“分类(G)”。5.对于连续性变量,如果仅仅为了调整该变量带来的混杂,直接放入模型进行分析(不解释OR值);若关心该变量对因变量的影响程度(考虑解释OR值),建议将连续性变量转化为分类变量,这样结果解释更符合医学专业。6.筛选方法不一样,分析结果也不一样。本例采用了两种方法:全变量模型(表3)和“向前:LR”逐步回归(表4),分析结果是不完全一样的,建议采用逐步回归的结果。7.Logistic回归分析一般不列模型方程,结果针对OR值进行危险因素或保护因素的解释。8.统计分析最后所得到的模型一定要结合专业知识来判断,统计最佳并不一定是专业最佳,只有建立在专业的合理可解释上,模型才有实际的临床意义。重要提示
有需要本例数据的小伙伴,可向后台申请(申请数据+邮箱)
本数据只是用于统计方法的应用举例,不代表临床效果
撰稿:刘岭
约稿编辑:刘芹
排版:毕丽
审核:钱程华
精彩推荐医学科研课堂丨统计说说(九):生存资料的COX回归分析医学科研课堂丨统计说说(八)—基本统计学方法之等级资料的非参数检验医学科研课堂丨统计说说(七):基于分类变量的卡方检验(二)医学科研课堂丨统计说说(六):基于分类变量的卡方检验(一)引领,创新科研学习“愚人”征集令—年护理科研主题培训
点个
在看
你最好看
预览时标签不可点收录于话题#个上一篇下一篇