类别数据分析 第三讲
时间:2026-01-21
时间:2026-01-21
CATEGORICAL DATA ANALYSIS香港科技大学社会科学部吴晓刚主讲
I.一般线性模型简介 (Generalized Linear Models 或 GLM)
一般线性模型GLMs 是将回归方程扩展到非常态分布或非线性的样本的一种统计方法。
● 一般线性模型GLMs的三个要素
■ 随机要素 (random component):假设被指定为应变量Y 的随机变量是属于某一种特定的概率分布型态 。
■ 系统要素(systematic component): 在方程式的右侧设定一组解释变量,属于线性的预测变量:
0 1X1 2X2 ... kXk.
■ 连结函数(link function): 设定随机要素与系统要素之间的统计关系,也就是将 μ=E(Y) 透过方程式连结到解释变量上。
● 一般线性模型 GLMs 的某些特殊型态 ■ 最小二乘法OLS模型
随机要素:常态分布与固定标准误的连续变量
系统要素:
0 1X1 2X2 ... kXk
连结函数:g(μ)= μ
■ logit 模型
随机要素:Y=1 or 0, 呈二项分布(binomial distribution).
系统要素:01122kk
连结函数:g(μ)=log [μ /(1- μ)] [logit]
■泊松回归模型(Poisson Regression)
随机要素:泊松分布(Poisson distribution)下的次数频率 (count frequency)
X X ... X
系统要素:01122kk
连结函数:g(μ)=log(μ)
在列联表( contingency tables)里的数据也是次数频率,因此, Loglinear 模型在一般线性模型GLMs的架构下,实际上是泊松回归的一种。
总之,一般线性模型GLMs 提供了一种包含了大多数连续与离散变量重要模型的统整模式。
● 最大可能性(似然)估计(Maximum Likelihood Estimation 或MLE)
此一估计所得的参数值与所观察到的数值最为一致:也就是说,运用最大似然法所估计出的参数发生的概率,将比其它的数字发生的概率更大。
X X ... X
CATEGORICAL DATA ANALYSIS香港科技大学社会科学部吴晓刚主讲
步骤一:决定一个说明未知参数概率的函数(似然函数likelihood function)。
步骤二:找出此一未知参数的观察值,使得此一似然函数达到最大值。
例子:运用二项公式(binomial formula)来计算十个被观察对象当中出现四位女性的概率。女性在总体当中出现的实际概率是½.
因此可得:
P(s 4|n 10,p .5)
0.5(1 0.5)
104
4
6
现在假设我们不知道总体当中的女性所占比例 (π ),但是我们的十个观察值当中确实有四位女性,我们由这个样本当中得到总体最可能的π 值为何?
最大可能性估计MLE, 就是推估一个总体的参数值,来使得观察值最可能发生。
上述的似然函数就是:
L
104
4
(1 )
6
数学上,我们希望找出的是参数值p 来达到这个似然函数L 的最大值,此时p即是 π的估计值。
在大样本的条件下,最大可能性的估计值会具有下列三个良好的统计性质:
i) 最有效率 (变异的极小化minimum variance) ii) 当样本数增加时,其统计偏误会不断缩小。 iii) 其分配型态渐近于随机抽样分布。
当总体属于随机分布时,对总体平均值的最大可能性估计即是样本的平均值,在满足此一条件下,最小二乘法 OLS 估计正等于是最大可能性估计MLE (Powers and Xie Appendix B)。
II. 二分法(Binary) Logit 模型
1. 发生比Odds 与发生比率Odds Ratio (Agresti p.268-270):
在处理二分法的变量时,发生比Odds 就等于某事件发生的概率除以未发生的概率。
p
odds
1 p
此处的 p 是指事件发生的概率, (1-p) 就是事件不发生或失败的概率。 因此,我们也可以用发生比Odds倒算出概率:
CATEGORICAL DATA ANALYSIS香港科技大学社会科学部吴晓刚主讲
oddsp
odds 1
发生比率(Odds ratio)是用来估计不同群体之间事件发生概率的相对比例。同一个事件的概率,用发生比之间的关系来表达就是:
p1/(1 p1)
p2/(1 p2)
让我们参考实际的例子:1996年全国统计数据中有6090个有效样本,依据性别与党员资格来划分,可以得到下列的次数分配表:
. tab party sex
current |
party | sex of respondent
member? | Male Female | Total -----------+----------------------+---------- Yes | 547 162 | 709 No | 2,541 2,840 | 5,381 -----------+----------------------+---------- Total | 3,088 3,002 | 6,090
男性成为党员的发生比是多少?
女性成为党员的发生比是多少?
男性对女性成为党员的发生比率又是多少?
. tab nsize14 party size of | place of |
residence | current party member?
at 14 | Yes No | Total -----------+----------------------+---------- Village | 388 3,697 | 4,085 Township | 51 352 | 403 County s | 73 292 | 365
CATEGORICAL DATA ANALYSIS香港科技大学社会科学部吴晓刚主讲
County-l | 42 219 | 261 District | 70 433 | 503 Province | 52 254 | 306 Beijing, | 32 131 | 163 -----------+----------------------+---------- Total | 708 5,378 | 6,086
对那些十四岁时仍居住在农村的人来说,成为党员的发生率是多少?
对那些十四岁时居住在乡镇的人来说,成为党员的发生率 …… 此处隐藏:16113字,全部文档内容请下载后查看。喜欢就下载吧 ……