计量统计方法-3

发布时间:2021-06-06

江西师范大学地理与环境学院研究生课程

计量统计方法胡碧松 博士/讲师hubisong624@

2010-4-8

第二章 经典数理统计方法(三)胡碧松 博士/讲师hubisong624@

2010-4-8

回顾 1.

相关分析 2. 回归分析 3. 时间序列分析 4.聚类分析 原理+基本方法+软件使用+结果分析

引申

主成分分析—— 因子分析的一种特殊形式,目的在于从众多指标中 找出可以代表所有特征的少数若干指标。(以少概 多,以偏概全?) 趋势面分析—— 用数学曲面形式来模拟地理要素的空间分布变化趋 势与规律。实际上也是回归分析的一种。 马尔科夫预测—— 地理预测的基础方法之一,以目前状况来预测未来 时期内的发展趋势。

5. 主成分分析 地理系统是多要素的复杂系统。在地理学研

究中,多变量问题是经常会遇到的。变量太 多,无疑会增加分析问题的难度与复杂性, 而且在许多实际问题中,多个变量之间是具 有一定的相关关系的。 因此,人们会很自然地想到,能否在相关分 析的基础上,用较少的新变量代替原来较多 的旧变量,而且使这些较少的新变量尽可能 多地保留原来变量所反映的信息?

5. 主成分分析 事实上,这种想法是可以实现的,主成分分

析方法就是综合处理这种问题的一种强有力 的工具。 主成分分析是把原来多个变量划为少数几个 综合指标的一种统计分析方法。 从数学角度来看,这是一种降维处理技术。 概括起来,这是一种复杂问题简单化的处理 方法,类似于非线性转化为线性、多维转化 为一维等。

5. 主成分分析多元分析处理的是多指标的问题。由于指标太多, 使得分析的复杂性增加。观察指标的增加本来是为 了使研究过程趋于完整,但反过来说,为使研究结 果清晰明了而一味增加观察指标又让人陷入混乱不 清。 由于在实际工作中,指标间经常具备一定的相关性, 故人们希望用较少的指标代替原来较多的指标,但 依然能反映原有的全部信息,于是就产生了主成分 分析、对应分析、典型相关分析和因子分析等方法。

5. 主成分分析

因子分析:

X=BZ+E

其中,X为原始变量矩阵,Z={Z1,Z2,…Zn}为主成 分变量,B为公因子负荷系数矩阵,E为残差向量。 当残差E的影响很小可以忽略,并且,Z矩阵各分 量Z1,Z2,…Zn之间彼此不相关,此时形成特殊形式 的因子分析,称为主成分分析。 因子分析的任务是求出公因子负荷系数矩阵和残差 矩阵。 主成分分析的任务是求出公因子负荷系数矩阵。

5. 主成分分析 因子分析和主成分分析的基本目的就是用少

数几个因子

去描述许多指标或因素之间的联 系,即将相关比较密切的几个变量归在同一 类中,每一类变量就成为一个因子,以较少 的几个因子反映原资料的大部分信息。 之所以称其为因子(Facter),而不是聚类 (Cluster),是因为它是不可观测的,即不是 具体的变量,这与聚类分析不同 。

5.1 主成分分析的基本原理 基本原理:

假定有n个地理样本,每个样本共有p个变量,构成 一个n×p阶的地理数据矩阵

x11 x 21 X xn1

x12 x22 xn 2

x1 p x2 p xnp

5.1 主成分分析的基本原理当p较大时,在p维空间中考察问题比较麻烦。为了 克服这一困难,就需要进行降维处理,即用较少的 几个综合指标代替原来较多的变量指标,而且使这 些较少的综合指标既能尽量多地反映原来较多变量 指标所反映的信息,同时它们之间又是彼此独立的。 主成分分析的两个基本原则:

主成分变量可以综合反映所有变量所涵括的信息; 主成分变量之间是相互独立的。

5.1 主成分分析的基本原理定义: 记x1,x2,…,xP为原变量指标,z1,z2,…,zm (m≤p)为新变量指标 那么,新变量指标可以表示为: z1 l11 x1 l12 x2 l1 p x p z 2 l21 x1 l22 x2 l2 p x p .......... .. z l x l x l x mp p m m1 1 m 2 2

5.1 主成分分析的基本原理 系数lij的确定原则:

①zi与zj(i≠j;i,j=1,2,…,m)相互无关; ②z1是x1,x2,…,xP的一切线性组合中方差最大 者,z2是与z1不相关的x1,x2,…,xP的所有线性 组合中方差最大者;…; zm是与z1,z2,……,zm -1都不相关的x1,x2,…xP, 的所有线性组合中方 差最大者。 新变量指标z1,z2,…,zm分别称为原变量指标x1, x2,…,xP的第1,第2,…,第m主成分。

5.1 主成分分析的基本原理从以上的分析可以看出,主成分分析的实质就是确 定原来变量xj(j=1,2,…,p)在诸主成分zi (i=1,2,…,m)上的荷载 lij( i=1,2,…, m; j=1,2 ,…,p)。 从数学上可以证明,它们分别是相关矩阵m个较大 的特征值所对应的特征向量。

5.2 主成分分析的计算步骤 (一)计算相关系数矩阵 r11 r12 r 21 r22 R rp1 rp 2 r1 p r2 p rpp

rij(i,j=1,2,…,p)为原变量xi与xj的相关系数,

rij=rji,其计算公式为rij

(xk 1

n

ki

xi )( x kj x j )n

(xk 1

n

ki

xi ) 2 ( x kj x j ) 2k 1

5.2 主成分分析的计算步骤 (二)计算特征值与特征向量

① 解特征方程 I

R 0 ,常用雅可比法(Jacobi) 求出特征值,并使其按大小顺序排 列 1 2 p 0 ; ② 分别求出对应于特征值 i 的特征向量 ei (i 1,2, , p) ,要求 ei =1,即 , p 2 eij e 其中 eij 1 表示向量 的第j个分量。 i j 1

5.2 主成分分析的计算步骤 (二)计算特征值与特征向量

③ 计算主成分贡献率及累计贡献率 i

贡献率

k 1

p

(i 1,2, , p )k

累计贡献率

k 1 k 1 p

i

k

(i 1,2, , p )

k

一般取累计贡献率达85%~95%的特征值 1 , 2 , , m所对应的第1、第2、…、第m(m≤p)个主成分。

5.2 主成分分析的计算步骤 (二)计算特征值与特征向量

④ 计算主成分载荷lij p( z i , x j ) i eij (i, j 1,2, , p)

⑤ 各主成分的得分 z11 z12 z1m z z22 z2 m Z 21 zn1 zn 2 znm

5. 主成分分析

例5-1:对某农业生态经济系统各区域单元的相关 数据做主成分分析。样本序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 人口密度x1/(人.km-2) 人均耕地面积x2/hm2农民人均纯收入x4/(元.人-1) 耕地占土地面积比率x7/% 森林覆盖率x3/% 人均粮食产量x5/(kg.人-1) 经济作物占农作物播面比例x6/% 果园与林地面积之比x8/% 灌溉田占耕地面积之比x 363.912 0.352 16.101 192.11 295.34 26.724 18.492 2.231 26.262 141.503 1.684 24.301 1 752.35 452.26 32.314 14.464 1.455 27.066 100.695 1.067 65.601 1 181.54 270.12 18.266 0.162 7.474 12.489 143.739 1.336 33.205 1 436.12 354.26 17.486 11.805 1.892 17.534 131.412 1.623 16.607 1 405.09 586.59 40.683 14.401 0.303 22.932 68.337 2.032 76.204 1540.29 216.39 8.128 4.065 0.011 4.861 95.416 0.801 71.106 926.35 291.52 8.135 4.063 0.012 4.862 62.901 1.652 73.307 1501.24 225.25 18.352 2.645 0.034 3.201 86.624 0.841 68.904 897.36 196.37 16.861 5.176 0.055 6.167 91.394 0.812 66.502 911.24 226.51 18.279 5.643 0.076 4.477 76.912 0.858 50.302 103.52 217.09 19.793 4.881 0.001 6.165 51.274 1.041 64.609 968.33 181.38 4.005 4.066 0.015 5.402 68.831 0.836 62.804 957.14 194.04 9.11 4.484 0.002 5.79 77.301 0.623 60.102 824.37 188.09 19.409 5.721 5.055 8.413 76.948 1.022 68.001 1255.42 211.55 11.102 3.133 0.01 3.425 99.265 0.654 60.702 1251.03 220.91 4.383 4.615 0.011 5.593 118.505 0.661 63.304 1246.47 242.16 10.706 6.053 0.154 8.701 141.473 0.737 54.206 814.21 193.46 11.419 6.442 0.012 12.945 137.761 0.598 55.901 1124.05 228.44 9.521 7.881 0.069 12.654 117.612 1.245 54.503 805.67 175.23 18.106 5.789 0.048 8.461 122.781 0.731 49.102 1313.11 236.29 26.724 7.162 0.092 10.078

5. 主成分分析

Step-1:将表中的数据作标准差标准化处理,然后 将它们代入相关系数计算公式来计算原始数据的相 关系数矩阵,结果如下表所示。x1 x2 1 0.6

44 0.42 0.009 x3 x4 x5 0.309 0.42 -0.74 0.383 1 0.734 0.672 0.098 0.747 x6 0.408 0.255 -0.755 0.069 0.734 1 0.658 0.222 0.707 x7 0.79 x8 0.156 x9 0.744 0.094 -0.924 0.073 0.747 0.707 0.89 0.29 1 1 -0.33 -0.34 0.309 0.408 0.79 0.744 -0.327 -0.714 -0.336 -0.035 0.644 1 0.07 -0.74 -0.93 0.07 1 0.383 -0.046

x1 x2 x3 x4 x5 x6 x7 x8 x9

0.009 -0.078 -0.93 -0.109 -0.05 -0.031 0.672 0.658 1 -0.03 0.89 0.098 0.222 -0.03 1 0.29

-0.71 -0.035

0.255 -0.755 0.069

0.156 -0.078 -0.109 -0.031 0.094 -0.924 0.073

5. 主成分分析

Step-2:由相关系数矩阵计算特征值,以及各个主成 分的贡献率与累计贡献率,见下表。 由表中可知,第1,第2,第3主成分的累计贡献率已高 达86.596%(大于85%),故只需要求出第1、第2、 第3主成分z1,z2,z3即可。主成分 z1 z2 z3 z4 z5 z6 z7 z8 z9 特征值 4.661 2.089 1.043 0.507 0.315 0.193 0.114 0.045 3 0.0315 贡献率/% 51.791 23.216 11.589 5.638 3.502 2.14 1.271 0.504 0.35 累计贡献率/% 51.791 75.007 86.596 92.234 95.736 97.876 99.147 99.65 100

计量统计方法-3.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219