应用SPSS软件进行多分类Logistic回归分析
发布时间:2024-10-12
发布时间:2024-10-12
SPSS
JournalofMathematicalMedicine.14 NO.6 2001Vol
文章编号:100424337(2001)0620548202 中图分类号:TP319 文献标识码:B
应用SPSS软件进行多分类Logistic回归分析
黄 爽 安胜利Ξ
(新乡市卫生监督检验所 新乡453003)
SPSS是在Win95或以上平台下运行的软件,界面友好、
直观,操作简便,非常适合于非统计专业人员应用。本文结合具体实例,介绍如何在SPSS10.0上进行多分类(反应)logistic回归分析。
通常意义上的Logistic回归要求因变量y只有两种取值(二分类),当y的取值有两种以上时,就要用多分类Logistic回归分析(MultinomialLogisticRegression)。这种分析不仅可用于医疗卫生领域的研究,也可应用于社会学、经济学等领域的研究。例如研究学生龋齿严重程度(因变量)与刷牙、饮食习惯、年龄等可能的影响因素之间的关系;不同的婚姻状况(因变量)与收入、心理状态和孩子数量间的关系;为了获得好的票房收入,电影制作者需研究观众的年龄、性别以及约会情况等和不同类型电影(因变量)之间的关系,以便对特定的观众群体进行特定的广告宣传。
如果因变量y有J个值(即y有J类),以其中一个类别作为参考类别(baselinecategory),其他类别都同它相比较可生成J-1个非冗余(nonredundant)的logit变换模型。例如以
y=J作为参考类别,则对于y=i,其logit模型为:
g=log
=Bi0+Bi1X1+Bi2X2+…+BipX
P(y=J)
p
得表1。由表中sig栏可见性别与视力低下程度有关系(P=0.034),而年龄与视力低下程度似无关(P=0.362),但这有可能是因为两者呈非线性关系而引起的,而非真的没有关系。我们可以结合调查结果将年龄(连续性变量)分为几个水平,并产生一个分类变量“学习阶段”:0=小学,1=初中,2=高中。删掉“年龄”变量,将变量“性别”和“学习阶段”都选入Factor(s)中,其他过程同上,得表2,可见学习阶段与视力低下程度的关系有显著性意义(P<0.001)。
表1 含有截距,性别和年龄模型的似然比检验
EffectIntercept
-2LogLikelihoodofReducedModel
309.043321.157338.954
Chi2Square0.0002.3126.553
df022
0.3620.034Sig
年龄性别
表2 含有截距,性别和学习阶段模型的似然比检验
EffectIntercept
-2LogLikelihoodofReducedModel
102.332140.753141.130
Chi2Square0.0009.03138.988
df024
0.0120.000Sig
而对于参考类别,其模型中的所有系数均为0。
以99年度新乡市某中小学视力监测结果为例,视力低下程度分轻、中、重三类。在SPSS数据文件内,建立三个变量:“低下程度”、“性别”、“年龄”。变量“低下程度”中的1代表轻度,2代表中度,3代表重度;“性别”中,1代表男性,2代表女性。SPSS10.0中的MultinomialLogisticRegression模块在运行时会自动将各分类变量中的最后一类(数值最大者)作为参考类别。根据所建模型中的系数可估计出一个学生某种视力低下程度的可能性大小。进行如下操作,
Analyze
性别 学习阶段 由以下操作
Model
⊙Fullfactorial(包括交互作用的全因素模型)
Statistics
√Likelihoodratiotest
得表3。可见性别和学习阶段间无交互作用(P=0.612),因此下面的分析仍然只考虑主效应(MainEffect)。
表3 含有截距,性别和学习阶段及其交互作用
模型的似然比检验
EffectIntercept
-2LogLikelihoodofReducedModel
96.96396.96396.963991610
Chi2Square0.0000.0000.00021415
df0004
01612Sig
Regression MultinomialLogisticRegression▲Dependent:低下程度
▲Factor(s):性别(分类变量)▲Covariate(s):年龄(连续性变量)
Model
⊙Maineffect(默认)
Statistics
性别
学习阶段性别3学习阶段
√Likelihoodratiotest
Ξ现在第一军医大学攻读卫生统计学硕士学位
548
SPSS
数理医药学杂志
由√Parameterestimates(默认)项可得表4。
表4 含有截距,性别和学习阶段模型的参数估计
视力低下轻度 Intercept [性别=1] [性别=2] [学习阶段= [学习阶段= [学习阶段=中度 Intercept [性别=1] [性别=2] [学习阶段= [学习阶段=
B-0.8050.45803
0]1]2]
1.0520.42403-2.1880.76003
0]1]
-0.5020.8040
3
2001年第14卷第6期
Std.0.1680.1050.3460.1950.2640.1400.3930.291
Wald22.87919.1489.2634.74568.52729.3191.6277.608
df110110110110
Sig.0.0000.0000.0020.0290.0000.0000.2020.006
Exp(B)
95%()LowerBound
1.2881.4541.043
UpperBound
1.9415.6402.239
1.5812.8641.529
2.1390.6052.233
1.6240.2801.262
2.8161.3093.953
[学习阶段=2]
注:3Thisparameterissettozerobecauseitisredundant. 表4中共有两套Logistic回归系数,分别针对轻度和中度视力低下。重度作为因变量中的参考类别,其所有系数都是0。“性别=2”和“学习阶段=2”分别作为其相应自变量中的参考类别,因而其系数也均为0。由sig一栏可见,两套系数中,“性别=1”与“性别=2”相比均有显著性差异(P<0.001);“学习阶段=0”与“学习阶段=2”相比在轻度中有显著性差异,P=
0.002,在中度中无显著性差异P=0.202,“学习阶段=1”与
P(轻度)=P(中度)=
0.077=0.4130.077-0.6240=1.080+0.536+1e+e+e
=0.205
11080+0.536+1
=0.382P(重度)=
11080+0.536+1
即该初中男生轻度视力低下的概率为0.413,中度视力低
下的概率为0.205,重度视力低下的概率为0.382。表4中的
exp(B)表示某因素(自变量)内该类别是其相应参考类别具
“学习阶段=2”在两种程度中均有有显著性差异,P值分别为
0.029和0.006。由表4中的系数,我们可估计出某个学生视
有某种倾向性的倍数,如exp(B)=1.581指对于视力低下为轻度而不是重度这种情况,男性是女性的1.581倍;exp(B)=
2.233指对于视力低下为中度而不是重度这种情况,初中生是
力低下程度的概率。例如对一个初中男生来说,其“性别=1”,“学习阶段=1”,根据表4中的系数B:
对于轻度,g1=log
0.077;
=-0.805+0.458+0.424=
P(重度)
=-2.188+0.760+0.804=
P(重度)
高中生的2.233倍。可见,同常用的 2检验和t检验相比,多分类Logistic回归分析不仅可同时分析所有的影响因素,还能对各因素的影响程度进行一定的量化。
在对话框中选择
Statistics
对于中度,g2=log
-0.624;
由于重度是因变量中的参考组,其所有系数均为0,所以
g3=0。
√CellProbabilites
可得表5。经作者编辑,表5中只列出了初中男生的情形。表中的PearsonResidual可用于评估模型拟和的优劣,若有绝对值大于2的情形,则应考虑是否有其他原因影响了模型的拟和。
根据公式P(Yi)=
∑
k=1
J
可得:
exp(gk)
表5 实际和预测频数以及残差
学习阶段初中
性别视力低下男
轻度
中度重度
频 数
实际12874901123
预测1197174359415081107.826
PearsonResidual
01785-1.1250.138
百 分 比实际预测4414%4113%16.9%20.5%38.7%38.2%
收稿日期:2001-04-29
549
上一篇:初二物理上学期第二单元光现象学案
下一篇:学习5以内数的组成