多元统计-主成分分析案例
发布时间:2024-09-25
发布时间:2024-09-25
例1、主成分分析用于综合评价主成分分析法通过研究指标体系的内在结构 关系,从而将多个指标转化为少数几个相互独立 且包含原来指标大部分信息(80%或85%以上)的 综合指标。其优点在于它确定的权数是基于数据 分析而得出的指标之间的内在结构关系,不受主 观因素的影响,有较好的客观性,而且得出的综 合指标(主成分)之间相互独立,减少信息的交 叉,这对分析评价极为有利。
反映地区社会经济发展的指标体系X1:国内生产总值(GDP) X3:第三产业产值占GDP比重 X5:工业企业劳动生产率 X7:每万人拥有卫生技术人员数 X9:教育经费投入占GDP比重 X11:人均邮电业务总量 X13:人均固定资产投资 X15:地方财政收入占GDP比重 X17:科研经费占GDP比重 X2:人均GDP X4:人均出口额 X6:人均社会消费品零售额 X8:每万人高等学校在校生数 X10:人均货运总量 X12:每万人电话机装机数 X14:人均实际利用外资 X16:每万人科研机构数
对全国31个地区上述17项指标的数据进行主成分分析, 应用SAS软件进行处理。 数据见CD.PCRex01
1、 求相关系数矩阵R
2、 计算R的特征值主成分 特 征 根 Y1 11.1134 Y2 2.6656 Y3 0.9126 Y4 0.7052
贡献率(%)累计贡献率
65.3765.37
15.6881.05
5.3786.42
4.1590.57
3、 求特征根所对应的单位特征向量特征向量 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17
Y10.038466 0.276020 0.243654 0.263487 0.180546 0.290834 0.259842 0.280523 0.094233 0.215946 0.292016 0.288268 0.282016 0.259006 0.216793 0.259962 0.212293
Y20.513225 0.203116 -0.182858 0.193618 0.217290 0.113642 -0.164527 -0.114637 -0.509240 -0.025832 0.083471 0.132592 0.105402 0.199407 -0.181330 -0.261367 -0.295756
4、主成分的表达式及其含义解释 5、计算主成分得分第一主成分名次
地区北京 上海 天津 广东 辽宁 福建 浙江 江苏 海南 新疆 吉林 黑龙江 山西 宁夏 云南
Y1得分11.7257 10.1776 5.1235 2.7422 1.1325 0.5586 0.2718 0.1817 0.0795 -0.3075 -0.4873 -0.6307 -0.7467 -0.7791 -0.8203
Y2得分-3.94396 2.43505 0.12551 3.34907 0.61942 1.90248 2.31576 2.53147 -0.79528 -1.07448 -1.09413 0.61915 -1.13709 -1.92281 -0.48313
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
第一主成分名次
地区陕西 山东 青海 湖北 内蒙古 河北 甘肃 重庆 湖南 西藏 广西 四川 江西 河南 安徽 贵州
Y1得分-0.9116 -1.0207 -1.1131 -1.1943 -1.2295 -1.4456 -1.8358 -1.8603 -1.8806 -1.9085 -1.9098 -2.1979 -2.3049 -2.3383 -2.4358 -2.6347
Y2得分-2.06481 2.32993 -1.47145 0.66326 -0.87181 1.25757 -1.40987 -0.36439 0.04577 -2.04139 -0.42078 0.33126 0.07660 0.86909 0.45974 -0.83575
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
主成分分析在 市场研究中的应用
食品生产预测(日本户田)为了对常用的100种食品的生产进行
经营决策,
需要就消费者对食品的嗜好程度进行调查。对785名消费者进行调查,要求每个消费者对100种食品进行 评价,按对食品的喜好程度评分,最受欢迎的给予 最高分9分,最不受欢迎的给予最低分1分。
假若你是该食品加工业决策部门的高级顾问,为 了对食品生产作出合理决策,请你对调查资料进 行分析,为决策者提供建议。
将被调查者按性别与年龄分成10组
以组为单位,在每组中每个成员都对100 种食品给 予评分,然后计算每组成员对每种食品评分的平均值。
食 品1 2 3 . . 100
组号17.8 1.6. . 3.1
25.4 2.8. 2.8
33.9 4.4. 3.3
43.5 4.0. 3.0
53.0 3.5 . .2.5
68.1 6.2. 3.9 .
76.0 7.2
85.4 7.5
93.8 7.0
102.5 9.0
3.5
3.0
2.8
3.0
1——5 组表示男性,6——10 组表示女性 1——5, 6——10 年龄从小到大排序
特征向量X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 特征根 i方差贡献率 累 计 方 差 贡 献 率
y10.286 0.331 0.323 0.299 0.261 0.309 0.344 0.348 0.346 0.303
y20.443 0.235 -0.172 -0.364 -0.509 0.409 0.256 0.036 -0.164 -0.267 1.769 17.69% 85.95%
y30.194 0.336 0.442 0.375 0.123 -0.034 -0.171 -0.290 -0.322 -0.522 0.75 7.5% 93.45%
6.82668.26% 68.26%
主成分的含义y1反映了公共平均嗜好程度, y1得分越大,表示大 众越喜欢吃此食品。 y2反映了年龄的作用。 y2得分为正时,表示孩子喜 欢吃; y2得分为负时,表示孩子不喜欢吃。 y3反映性别的作用。y3得分为正时,表示男性喜 欢吃; y3得分为负时,表示女性喜欢吃。
用 y1 得分来表示食品嗜好程度可有七成把握。 在充分注意到人们普遍的嗜好程度基础上,进一 步考虑到青少年和老年人的嗜好程度,对食品业 的开发方针作出决策时,将有85%的把握。
特别喜欢吃的
醋拌生鱼片、冰激棱 男性喜欢 女性喜欢
一般喜欢
孩子 咖喱饭 炸肉饼、火腿面包 成人 鸡蛋烩饭、炸猪排 酸汤、大头鱼 孩子 干咖喱、浓汤 成人 煮牛肉、生蛋 菜粥、清汤饼干、带馅面包 酱面条、烧鱼
一般不喜欢 特别不喜欢
服装的定型分类问题为了较好地满足市场的需要,服装生产厂 要了解所生产的一种服装究竟设计几种型号合 适?这些型号的服装应按怎样的比例分配生产 计划才能达到较好的经济效益?