奇异值分解与主成分分析
时间:2025-02-23
时间:2025-02-23
数值实验03:奇异值分解与主成分分析
主成分分析,也简称为PCA。它是一种对数据进行分析的技术,属于多元统计分析的范畴,最重要的应用是对原有数据进行简化。这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便地应用于许多实际课题。
基本问题
1、从代数的角度来看,PCA的目标就是使用另一组基去重新描述得到的数据空间,或者说它是线性变换Z=PX,而新的基要怎样揭示原有的数据间的关系?PCA适用的前提条件是什么? 答:
主成分分析在统计学中指的是一种简化数据集的技术,是一个线性变换。它把数据变换到一个新的坐标系中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能保留住数据的最重要方面。
PCA适用的前提条件为尽量不改变数据特性:
(1) 满足线性要求。由于PCA的目标是使用另一组新的基去重新描述得到的数
据空间,它是线性变换Z=PX,这使得它能进行的主元分析之间的关系也是线性的。
(2) 符合正态分布或指数分布。如果数据不满足正态分布或指数分布,方差和
协方差就不能很好地反映噪声和冗余,PCA将失效。
(3) 本身具有较高的信噪比。在进行数据处理时把具有较高方差的一维向量当
作主元,方差较小的当作噪声,这样可以很方便的取出数据中的主要成分,去除次要部分的噪声。主要成分能够很好的还原数据的信息。
(4) 主元正交。主元正交能够使用一系列的线性变换对数据进行处理,提高
PCA的性能及效率。
2、对于一组具有m个观测变量,n个采样点的数据X,将每个观测变量的采样值
T
写为行向量,可以得到一个m n的矩阵X (x1,x2,L,xm),这m个观测变量的
协方差矩阵如下:
CX
1
XXT
n 1
证明协方差矩阵是m阶的对称半正定矩阵。为什么该矩阵对角线上的元素对应的是观测变量的方差?
CX
1
XXT
n 1,而
答: 因为 ,
所以,CX为对称矩阵。对CX求特征值,由于X矩阵和它的转置矩阵的特征值相等,设为λ。所以CX矩阵的特征值为λ2≥0。所以该矩阵为半正定矩阵。综上所述,矩阵CX为对称半正定矩阵,主对角元素是观测变量的方差。
3、对于新定义的Z=PX,推导该变量的协方差矩阵CZ与CX的关系。 答:寻找一组正交基组成矩阵P,Z=PX,使得CZ为对角矩阵。则有
所以,
实验问题
4、对矩阵X进行奇异值分解结果如何?它与CX的特征值分解有何关系?讨论数据的中心化与归一化对计算结果的影响。
答:对矩阵X进行奇异值分解,将X分解成三个矩阵:
其中U是m*m 的矩阵,V是n*n矩阵,Λ是m*n 矩阵。U是矩阵XXT的特征值矩阵,V是矩阵XTX的特征值矩阵。Λ是伪对角矩阵,对角线上的值就是奇异值。 CX矩阵的特征值乘上(n-1)等于X矩阵特征值的平方。CX矩阵的特征向量和X矩阵分解出来的U矩阵的列向量线性相关。
。
中心化与归一化:
中心化:每个维度数据都减去该维度数据的平均值; 归一化:每个维度数据都除以该维度数据的标准差。
中心化和归一化也称为数据的标准化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。原始数据通过标准化处理后,它们之间的可比性增强、影响因素减少,从而更利于分析。
5、随机生成若干个的矩阵X,分别计算矩阵X的奇异值分解与矩阵CX的特征值分解,它们有何关系?分析和关注数据的中心化与归一化对计算结果产生的差异。 答:
设矩阵X为原矩阵,矩阵B为PCA分解后得到的酉矩阵,矩阵C为PCA分解后得到的对角矩阵,矩阵U为SVD分解后的左矩阵,矩阵V为SVD分解后的右矩阵,矩阵S为SVD分解后中间的对角矩阵。 第一组数据:
X = [6 5 0 3
CX=[23.3333333333333 22.3333333333333 21 22.3333333333333
34
26.6666666666667
2 8 3 5
2 6 3 7
7 7 5 1]
32 30 32.6666666666667 26 26
41.3333333333333]
-0.131199743636058 -0.723724827132701 0.644444068601329 0.209047469025914]
21 32 26.6666666666667
30
B = [0.411786479069834 -0.292084005692979 0.527131772735593 0.496300895026332 0.553398058746110
0.377376098777818 0.578830945694059 -0.661232901477611
-0.853173755189085 0.236520081252328 -0.0577234817691189 0.461325041888468
C = [113.069669593525 0 0 0 0
0 0
13.2313125606574 0 0 0 0
4.14370201271079
0 0.888649166440631] 0.709285491919851
-0.434563467763495 0.144429504118997
0.316989759644773 -0.683377711458733
U = [-0.455616259277181
-0.712772491544327 -0.0639562125133900 -0.316940292388088 0.0694478842926790 -0.428856678438048 V = [-0.411786479069834
-0.527131772735593 -0.496300895026332 -0.553398058746110
-0.698570458293384 0.292084005692980 -0.3 …… 此处隐藏:15018字,全部文档内容请下载后查看。喜欢就下载吧 ……
上一篇:果蔬营养与健康文稿doc