类别数据分析 第三讲

时间:2026-01-21

CATEGORICAL DATA ANALYSIS香港科技大学社会科学部吴晓刚主讲

I.一般线性模型简介 (Generalized Linear Models 或 GLM)

一般线性模型GLMs 是将回归方程扩展到非常态分布或非线性的样本的一种统计方法。

● 一般线性模型GLMs的三个要素

■ 随机要素 (random component):假设被指定为应变量Y 的随机变量是属于某一种特定的概率分布型态 。

■ 系统要素(systematic component): 在方程式的右侧设定一组解释变量,属于线性的预测变量:

0 1X1 2X2 ... kXk.

■ 连结函数(link function): 设定随机要素与系统要素之间的统计关系,也就是将 μ=E(Y) 透过方程式连结到解释变量上。

● 一般线性模型 GLMs 的某些特殊型态 ■ 最小二乘法OLS模型

随机要素:常态分布与固定标准误的连续变量

系统要素:

0 1X1 2X2 ... kXk

连结函数:g(μ)= μ

■ logit 模型

随机要素:Y=1 or 0, 呈二项分布(binomial distribution).

系统要素:01122kk

连结函数:g(μ)=log [μ /(1- μ)] [logit]

■泊松回归模型(Poisson Regression)

随机要素:泊松分布(Poisson distribution)下的次数频率 (count frequency)

X X ... X

系统要素:01122kk

连结函数:g(μ)=log(μ)

在列联表( contingency tables)里的数据也是次数频率,因此, Loglinear 模型在一般线性模型GLMs的架构下,实际上是泊松回归的一种。

总之,一般线性模型GLMs 提供了一种包含了大多数连续与离散变量重要模型的统整模式。

● 最大可能性(似然)估计(Maximum Likelihood Estimation 或MLE)

此一估计所得的参数值与所观察到的数值最为一致:也就是说,运用最大似然法所估计出的参数发生的概率,将比其它的数字发生的概率更大。

X X ... X

CATEGORICAL DATA ANALYSIS香港科技大学社会科学部吴晓刚主讲

步骤一:决定一个说明未知参数概率的函数(似然函数likelihood function)。

步骤二:找出此一未知参数的观察值,使得此一似然函数达到最大值。

例子:运用二项公式(binomial formula)来计算十个被观察对象当中出现四位女性的概率。女性在总体当中出现的实际概率是½.

因此可得:

P(s 4|n 10,p .5)

0.5(1 0.5)

104

4

6

现在假设我们不知道总体当中的女性所占比例 (π ),但是我们的十个观察值当中确实有四位女性,我们由这个样本当中得到总体最可能的π 值为何?

最大可能性估计MLE, 就是推估一个总体的参数值,来使得观察值最可能发生。

上述的似然函数就是:

L

104

4

(1 )

6

数学上,我们希望找出的是参数值p 来达到这个似然函数L 的最大值,此时p即是 π的估计值。

在大样本的条件下,最大可能性的估计值会具有下列三个良好的统计性质:

i) 最有效率 (变异的极小化minimum variance) ii) 当样本数增加时,其统计偏误会不断缩小。 iii) 其分配型态渐近于随机抽样分布。

当总体属于随机分布时,对总体平均值的最大可能性估计即是样本的平均值,在满足此一条件下,最小二乘法 OLS 估计正等于是最大可能性估计MLE (Powers and Xie Appendix B)。

II. 二分法(Binary) Logit 模型

1. 发生比Odds 与发生比率Odds Ratio (Agresti p.268-270):

在处理二分法的变量时,发生比Odds 就等于某事件发生的概率除以未发生的概率。

p

odds

1 p

此处的 p 是指事件发生的概率, (1-p) 就是事件不发生或失败的概率。 因此,我们也可以用发生比Odds倒算出概率:

CATEGORICAL DATA ANALYSIS香港科技大学社会科学部吴晓刚主讲

oddsp

odds 1

发生比率(Odds ratio)是用来估计不同群体之间事件发生概率的相对比例。同一个事件的概率,用发生比之间的关系来表达就是:

p1/(1 p1)

p2/(1 p2)

让我们参考实际的例子:1996年全国统计数据中有6090个有效样本,依据性别与党员资格来划分,可以得到下列的次数分配表:

. tab party sex

current |

party | sex of respondent

member? | Male Female | Total -----------+----------------------+---------- Yes | 547 162 | 709 No | 2,541 2,840 | 5,381 -----------+----------------------+---------- Total | 3,088 3,002 | 6,090

男性成为党员的发生比是多少?

女性成为党员的发生比是多少?

男性对女性成为党员的发生比率又是多少?

. tab nsize14 party size of | place of |

residence | current party member?

at 14 | Yes No | Total -----------+----------------------+---------- Village | 388 3,697 | 4,085 Township | 51 352 | 403 County s | 73 292 | 365

CATEGORICAL DATA ANALYSIS香港科技大学社会科学部吴晓刚主讲

County-l | 42 219 | 261 District | 70 433 | 503 Province | 52 254 | 306 Beijing, | 32 131 | 163 -----------+----------------------+---------- Total | 708 5,378 | 6,086

对那些十四岁时仍居住在农村的人来说,成为党员的发生率是多少?

对那些十四岁时居住在乡镇的人来说,成为党员的发生率 …… 此处隐藏:16113字,全部文档内容请下载后查看。喜欢就下载吧 ……

类别数据分析 第三讲.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:4.9 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:19元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219