数学建模案例分析—主成分分析的应用--概率统计方法建模
时间:2025-05-11
时间:2025-05-11
数学建模中的常用的处理影响因素的一种方法
§8 主成分分析的应用
主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能多地包含原变量的信息(降维),从而使得用这几个新变量替代原变量分析问题成为可能。即在尽可能少丢失信息的前提下从所研究的m个变量中求出几个新变量,它们能综合原有变量的信息,相互之间又尽可能不含重复信息,用这几个新变量进行统计分析(例如回归分析、判别分析、聚类分析等等)仍能达到我们的目的。
设有n个样品,m个变量(指标)的数据矩阵
Xn m
x11 x21 xn1 x1m x(1)
x22 x2m x(2)
xxn2 xnm (n) x12
寻找k个新变量y1,y2, ,yk(k m),使得 1、yl al1x1 al2x2 almxm,(l 1,2, ,k) 2、y1,y2, yk彼此不相关
这便是主成分分析。主成分的系数向量al (al1,al2, ,alm)的分量alj刻划出第j个变量关于第l个主成分的重要性。
可以证明,若x (x1,x2, ,xm)T为m维随机向量,它的协方差矩阵V的m个特征值为
1 2 m 0,相应的标准正交化的特征向量为u1,u2, ,um,则
x (x1,x2, ,xm)T的第i主成分为yi uiTx(i 1,2, ,m)。
称 i/
j 1
m
j
为主成分yi uix(i 1,2, ,m)的贡献率,
T
/
jj 1
j 1
km
j
为主成分
y1,y2, yk的累计贡献率,它表达了前k个主成分中包含原变量x1,x2, ,xm的信息量大
小,通常取k使累计贡献率在85%以上即可。当然这不是一个绝对不变的标准,可以根据实
际效果作取舍,例如当后面几个主成分的贡献率较接近时,只选取其中一个就不公平了,若都选入又达不到简化变量的目的,那时常常将它们一同割舍。
计算步骤如下:
(1,2, ,m); 1、由已知的原始数据矩阵Xn m计算样本均值向量 1n
其中i xij(i 1,2, ,m)
nj 1
T
数学建模中的常用的处理影响因素的一种方法
2、计算样本协方差矩阵V
其中sij
1
(sij) ( ij) n 1
(x
l 1
n
li
i)(xlj j)(i,j 1,2, ,m)
x ij 3
、把原始数据标准化,即x
X TX ; (x ij)。形成样本相关矩阵RXn m
的特征根 0及相应的标准正交化的特征向量u,u, ,u,可得4、求R12m12m
主成分为yi uiTx(i 1,2, ,m)。
关于主成分的实际意义,要结合具体问题和相关的专业知识才能给出合理的解释。 例1 下表是10名初中男学生的身高(x1),胸围(x2),体重(x3)的数据,试进行主成分分析。
由表中数据计算得到
46.5717.0930.98
1S (161.2,77.3,51.2)T V21.1132.58
n 1 55.53
的三个特征值和相应的三个标准正交化的特征向量为 解出V
1 99.00, 2 22.79, 3 1.41
T
T
u1 (0.56,0.42,0.71)T, u2 (0.83, 0.33, 0.45), u3 (0.05,0. 84,由于三个主成分的贡献率分别为
54)0.
99.022.791.41
80.36%, 18.50%, 1.14%
123.20123.20123.20
当保留前两个主成分时,累计贡献率已达98.86%,因此第三个主成分可以舍去。得到的前
两个样本主成分的表达式为
数学建模中的常用的处理影响因素的一种方法
y1 0.56x1 0.42x2 0.71x3 y2 0.83x1 0.33x2 0.45x3
现在我们来解释这两个主成分的意义,从y1的表达式可以看出,y1是身高、胸围、体重三个变量的加权和,当一个学生的y1数值较大时,可以推断其或较高或较胖或又高又胖,故y1是反映学生身材魁梧与否的综合指标。(x1)两负(x2,y2的表达式中系数的符号为一正,当一个学生的y2数值较大时,表明其x1大,而x2,x3小,即为瘦高个,故y2是反映x3)
学生体形特征的综合指标。
需要指出的是,虽然利用主成分本身可对所涉及的变量之间的关系在一定程度上作分析,但这往往并不意味着分析问题的结束。主成分分析本身往往并不是最终目的,而只是达到某种目的的一种手段。很多情况下,主成分分析只是作为对原问题进行统计分析的中间步骤,目的是利用主成分变量代替原变量作进一步的统计分析,达到减少变量个数的效果。例如,利用主成分变量作回归分析、判别分析、聚类分析等等。
下面再举一个利用主成分进行样品排序的例子。
例2 电子工业部所属的15个工厂某年份的经济效益数据如下表。其中
x1—资金利税率(%) x2—固定资产利税率(%) x3—流动资金利税率(%) x4—全员利税率(%) x5—成本利税率(%) x6—流动资金周转天数
数学建模中的常用的处理影响因素的一种方法
按照上述步骤,可以计算出样本相关矩阵为
1
1 0.978
0.9950.954 R
0.895 0.880
0.0080.724 0.759 0.80 5
10.8620.8420. 720
10.6430. 730
1 0.408
1
的特征根及相应的标准正交化的特征向量分别为
R
y1 0.441x1 0.437x2 0.436x3 0.41x4 0.359x5 0.358x6
此主成分主要反映前四个经济指标的效果,因为其系数之值比较接近,它们几乎以一样的重要性综合说明了各厂的经济效益。
第二个主成分为
y2 0.083x1 0.092x2 0.175x3 0.184x4 0.677x5 0.678x6
此主成分主要反映后两个经济指标的效果。
由于前两个主成分的累计贡献率已达94.5%,因此可以选取 …… 此处隐藏:569字,全部文档内容请下载后查看。喜欢就下载吧 ……