19 Logistic回归分析
时间:2025-07-07
时间:2025-07-07
第十九章 Logistic回归分析
[教学要求]
了解:logistic回归模型的基本结构;参数估计的基本思想;如何用logistic回归模型做预测。
熟悉:logistic回归系数的假设检验和区间估计方法;条件logistic回归与非条件logistic回归的适用条件; 如何用logistic回归校正混杂因素和筛选因素。
掌握:logistic回归分析的用途;logistic回归系数的流行病学意义及其与优势比或相对危险度的关系。
[重点难点]
第一节 Logistic回归模型的基本概念
基本概念
线性logistic回归模型为Y=ln(P)=β0+βX。 1 P
eβ0+βX。 Logistic回归模型又可表示为P=1+eβ0+βX
第二节 Logistic回归的参数估计及假设检验
一、基本概念
最大似然法的基本思想:先建立似然函数和对数似然函数;求似然函数或对数似然函数达到极大时参数的取值,称为参数的最大似然估计值。
:表示在其它自变量均为零时死亡(或发病)优Logistic回归模型常数项β0
势(odds) 的对数值,当死亡(或发病)概率很低时,不死亡(或不发病)的概率接近1,该值近似等于自然死亡率(或发病率)。
是变量X的logistic回归系数,exp(β )是其Logistic回归系数的意义:设β
它变量取值固定时,该变量与疾病关联的优势比(OR),反映了危险因素X与疾病关联的程度。
∧
二、计算
似然比检验的统计量是G=-2lnL-(-2lnL’)
Wald检验统计量是 χ=(2 β
)SE(β)2
±ZSE(β ) 回归系数的区间估计:βα/2
第三节 条件logistic回归模型
一、基本概念
条件logistic回归模型的结构:设只有一个自变量X,假定个体得病的概率正比于exp(β0+βX),即P(YA=1)∝exp(β0+βXA),P(YB=1)∝exp(β0+βXB)。Y=1表示得病,Y=0表示未得病; 记第i对中的病例为A,对照为B,一对病例和对照中只有1人得病的条件下恰好是A得病概率为
P(YA=一对中只有一人得病)=exp(βXA) exp(βXA)+exp(βXB)
等式右端分母的指数中,回归的常数项β0被约掉了。此式右端分子和分母
同除以exp(βXA),便有 P(YA=一对中只有一人得病)=1 1+exp[ β(XA XB)]
条件logistic回归模型中回归系数β的意义:表示患病的机会与变量值的关系,即exp(β)表示变量增加一个单位时,患病的概率放大的倍数,即增与不增的相对危险度RR。
第四节 Logistic回归的应用
logistic回归应用:横断面研究资料、队列研究资料和病例-对照研究资料的分析, 临床诊断的判别模型, 治疗效果评价等。
Logistic回归分析目的:
⒈ 筛选危险因素
⒉ 校正混杂因素
⒊ 预测与判别
logistic回归分析需注意的问题:
1.需要有足够的样本量来保障参数估计的稳定性。
2.多变量的logistic回归对自变量进行筛选不要完全依赖计算机和检验水平来筛选,临床与流行病学的意义和生物学机制在模型结果解释中占更重要的地位。
3.logistic回归模型的自变量可以是无序多分类变量,常用多个0-1假变量来代替,使结果更容易解释。
4.在大规模的队列研究和横断面研究、临床的诊断试验和疗效评价试验,不同暴露层或处理组的疾病(或死亡)分布与研究总体人群中疾病(或死亡)的分布一致时,常数项才有意义。
[案例讨论参考答案]
案例19-1 1. 现在很多文章都采取了这样的分析程序,即先做单因素分析,有统计学意义的因素再用于做多因素筛选。这种死板的分析程序是研究者对疾病病因和混杂因素没有任何认识时才采取的,并不是最佳的分析方案。因为它完全依赖计算机和统计学标准来分析,而忽略了研究设计确定的研究目的和研究者本身对危险因素与疾病关系的流行病学认识。
2.根据流行病学知识,我们知道性别、年龄和职业体力劳动是分析肥胖与糖尿病关系时重要的混杂因素,因此在分析肥胖与糖尿病关系时,必须校正这些因素。即在模型中固定选入这些因素,再看引入肥胖指标时的统计学意义与OR估计值。
[电脑实验及结果解释]
实验19-1 非条件Logistic回归模型
程序19-1 非条件Logistic回归模型SAS程序及说明 程 序 行号
01 DATA a;
02 INPUT y drink a1 a2 a3 count@@;
03 CARDS;
04 0 0 0 0 0 5 0 1 0 0 0 5
05 0 0 1 0 0 25 0 1 1 0 0 21
06 0 0 0 1 0 42 01 0 1 0 34
07 0 0 0 0 1 24 0 1 0 0 1 44
08 1 0 0 0 0 35 1 1 0 0 0 270
09 1 0 1 0 0 29 1 1 1 0 0 138
10 1 0 0 1 0 27 1 1 0 1 0 139
11 1 0 0 0 1 18 1 1 0 0 1 119
12 ; 说 明 建立数据集a; 定义并输入变量;
13 PROC LOGISTIC DESCENDING; 调用LOGISTIC过程进行logistic回归分析;
指定频数加权变量count; 14 FREQ count;
15 MODEL y=a1 a2 a3 drink; 定义回归模型;
运行程序; 16 RUN;
运行结果:
Output窗口:
The LOGISTIC Procedure
Model Fit Statistics
Intercept Intercept and
Criterion Only Covariates
AIC 991.488 801.958
SC 996.371 826.370
-2 Log L 989.488 791.958
以上是拟合优度检验结果。
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr > ChiSq
Likelihood Ratio 197.5303 4 <.0001
Score 183.4679 4 <.0001
上一篇:生产安全事故调查报告格式
下一篇:企业绩效考核与薪酬体系设计