奇异值分解与主成分分析

时间:2025-02-23

数值实验03:奇异值分解与主成分分析

主成分分析,也简称为PCA。它是一种对数据进行分析的技术,属于多元统计分析的范畴,最重要的应用是对原有数据进行简化。这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。它的优点是简单,而且无参数限制,可以方便地应用于许多实际课题。

基本问题

1、从代数的角度来看,PCA的目标就是使用另一组基去重新描述得到的数据空间,或者说它是线性变换Z=PX,而新的基要怎样揭示原有的数据间的关系?PCA适用的前提条件是什么? 答:

主成分分析在统计学中指的是一种简化数据集的技术,是一个线性变换。它把数据变换到一个新的坐标系中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能保留住数据的最重要方面。

PCA适用的前提条件为尽量不改变数据特性:

(1) 满足线性要求。由于PCA的目标是使用另一组新的基去重新描述得到的数

据空间,它是线性变换Z=PX,这使得它能进行的主元分析之间的关系也是线性的。

(2) 符合正态分布或指数分布。如果数据不满足正态分布或指数分布,方差和

协方差就不能很好地反映噪声和冗余,PCA将失效。

(3) 本身具有较高的信噪比。在进行数据处理时把具有较高方差的一维向量当

作主元,方差较小的当作噪声,这样可以很方便的取出数据中的主要成分,去除次要部分的噪声。主要成分能够很好的还原数据的信息。

(4) 主元正交。主元正交能够使用一系列的线性变换对数据进行处理,提高

PCA的性能及效率。

2、对于一组具有m个观测变量,n个采样点的数据X,将每个观测变量的采样值

T

写为行向量,可以得到一个m n的矩阵X (x1,x2,L,xm),这m个观测变量的

协方差矩阵如下:

CX

1

XXT

n 1

证明协方差矩阵是m阶的对称半正定矩阵。为什么该矩阵对角线上的元素对应的是观测变量的方差?

CX

1

XXT

n 1,而

答: 因为 ,

所以,CX为对称矩阵。对CX求特征值,由于X矩阵和它的转置矩阵的特征值相等,设为λ。所以CX矩阵的特征值为λ2≥0。所以该矩阵为半正定矩阵。综上所述,矩阵CX为对称半正定矩阵,主对角元素是观测变量的方差。

3、对于新定义的Z=PX,推导该变量的协方差矩阵CZ与CX的关系。 答:寻找一组正交基组成矩阵P,Z=PX,使得CZ为对角矩阵。则有

所以,

实验问题

4、对矩阵X进行奇异值分解结果如何?它与CX的特征值分解有何关系?讨论数据的中心化与归一化对计算结果的影响。

答:对矩阵X进行奇异值分解,将X分解成三个矩阵:

其中U是m*m 的矩阵,V是n*n矩阵,Λ是m*n 矩阵。U是矩阵XXT的特征值矩阵,V是矩阵XTX的特征值矩阵。Λ是伪对角矩阵,对角线上的值就是奇异值。 CX矩阵的特征值乘上(n-1)等于X矩阵特征值的平方。CX矩阵的特征向量和X矩阵分解出来的U矩阵的列向量线性相关。

中心化与归一化:

中心化:每个维度数据都减去该维度数据的平均值; 归一化:每个维度数据都除以该维度数据的标准差。

中心化和归一化也称为数据的标准化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。原始数据通过标准化处理后,它们之间的可比性增强、影响因素减少,从而更利于分析。

5、随机生成若干个的矩阵X,分别计算矩阵X的奇异值分解与矩阵CX的特征值分解,它们有何关系?分析和关注数据的中心化与归一化对计算结果产生的差异。 答:

设矩阵X为原矩阵,矩阵B为PCA分解后得到的酉矩阵,矩阵C为PCA分解后得到的对角矩阵,矩阵U为SVD分解后的左矩阵,矩阵V为SVD分解后的右矩阵,矩阵S为SVD分解后中间的对角矩阵。 第一组数据:

X = [6 5 0 3

CX=[23.3333333333333 22.3333333333333 21 22.3333333333333

34

26.6666666666667

2 8 3 5

2 6 3 7

7 7 5 1]

32 30 32.6666666666667 26 26

41.3333333333333]

-0.131199743636058 -0.723724827132701 0.644444068601329 0.209047469025914]

21 32 26.6666666666667

30

B = [0.411786479069834 -0.292084005692979 0.527131772735593 0.496300895026332 0.553398058746110

0.377376098777818 0.578830945694059 -0.661232901477611

-0.853173755189085 0.236520081252328 -0.0577234817691189 0.461325041888468

C = [113.069669593525 0 0 0 0

0 0

13.2313125606574 0 0 0 0

4.14370201271079

0 0.888649166440631] 0.709285491919851

-0.434563467763495 0.144429504118997

0.316989759644773 -0.683377711458733

U = [-0.455616259277181

-0.712772491544327 -0.0639562125133900 -0.316940292388088 0.0694478842926790 -0.428856678438048 V = [-0.411786479069834

-0.527131772735593 -0.496300895026332 -0.553398058746110

-0.698570458293384 0.292084005692980 -0.3 …… 此处隐藏:15018字,全部文档内容请下载后查看。喜欢就下载吧 ……

奇异值分解与主成分分析.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219