代谢组学数据分析的统计学方法(3)

发布时间:2021-06-06

20144312·359·

PLS的思想是,通过最大化自变量数据和应变量数据集之间的协方差来构建正交得分向量(潜变量或主成分),从而拟合自变量数据和应变量数据之间的线性

[19]

关系。PLS的降维方法与PCA的不同之处在于PLS既分解自变量X矩阵也分解应变量Y矩阵,并在分解时利用其协方差信息,从而使降维效果较PCA能

[20]

够更高效地提取组间变异信息。当因变量Y为二

1;分类情况下,通常一类编码为1,另一类编码为0或-当因变量Y为多分类时,则需将其化为哑变量。通

DA模型拟合效果使用R2X、R2Y和Q2Y常,评价PLS-DA模型拟这些指标越接近1表示PLS-这三个指标,

R2X和R2Y分别表示PLS-合数据效果越好。其中,

DA分类模型所能够解释X和Y矩阵信息的百分比,

DAQ2Y则为通过交叉验证计算得出,用以评价PLS-Q2Y越大代表模型预测效果较好。模型的预测能力,

PLS-DA得分图常用来直观地展示模型的分实际中,

类效果,图中两组样品分离程度越大,说明分类效果越

显著。代谢组学数据分析中另一种常用的方法是OPLS-DA,DA的扩展,它是PLS-即首先使用正交信号校正技术,将X矩阵信息分解成与Y相关和不相关的两类信息,然后过滤掉与分类无关的信息,相关的信息主要集中在第一个预测成分。JohanTrygg等认为该方法可以在不降低模型预测能力的前提下,有效减

[21]

少模型的复杂性和增强模型的解释能力。与PLS-2

R2Y、Q2Y和OPLS-DA得DA模型相同,可以用RX、

分图来评价模型的分类效果。CarolynM.Slupsky等(2010)使用OPLS-DA发现卵巢癌患者、乳腺癌患者、

正常人这三者之间的尿液代谢轮廓显著不同,从而推断尿液代谢组学可能为癌症的特异性诊断提供重要

[22]

依据。

使用由于代谢组学数据具有高维、小样本的特性,有监督学习方法进行分析时很容易产生过拟合的现

DA在无差异象。为此,需要使用置换检验考察PLS-[23]

情况下的建模效果。该方法在固定X矩阵的前提下,随机置换Y分类标签n次,每次随机置换后建立新

22

DA模型,与的PLS-并计算相应的RY和QY;然后,

真实标签模型得到的结果进行比较,用图形直观表达是否有过拟合现象。

由于样本量的不足,通常采用上述的交叉验证和置换检验方法作为模型验证方法。而实际中,在样本量允许的情况下,最为有效的模型验证方法即将整个数据集严格按照时间顺序划分为内部训练数据和外部测试数据两部分,利用内部训练数据建立模型,再对外部测试数据进行预测,客观地评价模型的有效性和适用性。

生物标志物的筛选

代谢组学分析的最终目标是希望从中筛选出潜在

的生物相关标志物,从而探索其中的生物代谢机制,因此需要借助一定的特征筛选方法进行变量筛选。对于高维代谢组学数据的特征筛选,研究的目的是从中找出对样本分类能力最强或较强的一个或若干个变量。特征筛选方法主要分为三类:过滤法、封装法和嵌入[24]

法。过滤法主要是采用单变量筛选方法对变量进行筛选,优点是简单而快捷,能够快速的降维,如t'检

Wilcoxon秩和检验、SAM等方法。封装法是一种验、

多变量特征筛选策略,通常是以判别模型分类准确性作为优化函数的前向选择、后向选择和浮动搜索特征变量的算法,它通常是按照“节省原则”进行特征筛选,最终模型可能仅保留其中很少部分的重要变量,如遗传算法等。嵌入法的基本思想是将变量选择与分类模型的建立融合在一起,变量的重要性评价依靠特定分类模型的算法实现,在建立模型的同时,可以给出各

DA方法的VIP统计量变量重要性的得分值,如PLS-等。为了更加客观、全面地评价每个变量的重要性,代谢组学研究中一般采取将上述方法结合起来的方式进

行变量筛选。比较常见的一种策略是先进行单变量分析,再结合多变量模型中变量重要性评分作为筛选标准,如挑选fdr≤0.05和VIP>1.5的变量作为潜在生物标志物。用筛选的潜在生物标志物对外部测试数据集进行预测,评价其预测效果。最后,可以通过研究生物标志物的生物学功能和代谢通路,分析不同生物标志物之间的相互作用和关系,从而为探索生物代谢机制提供重要线索和信息。YangJinglei等(2013)即在代谢组学分析中使用fdr≤0.2和VIP>1.5的双重标准来筛选精神分裂症的特异生物标志物,所筛选出的差异代谢物其AUC在训练数据中达94.5%,外部测试数据中达0.895

[25]

。展

由于代谢组学数据变量多、关系复杂的特性,数据分析任务极为艰巨。目前常用的统计学方法在一定程度上为进行代谢组学数据分析提供了有效的工具,但仍然存在诸多不足。如在代谢组学研究中,生物样品DA或之间的变异性往往较大,目前最流行的PLS-OPLS-DA数据分析方法在差异小、噪声大时,模型使PLS-DA和OPLS-DA均是基用效果不够理想。另外,于线性回归的方法,但是代谢组学数据通常不是简单PLS-DA和OPLS-DA模型拟合数的线性关系,因此,

据的结果可能会不够好。基于这些问题,一些学者开始尝试将一些新的高维数据分析方法和思想应用于代谢组学数据分析中,如LinXiaohui等(2011)提出一种将支持向量机、随机森林和遗传算法结合起来进行变量筛选的分析思路,通过比较证实其较单个分析方法

(下转第365页)

代谢组学数据分析的统计学方法(3).doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219