代谢组学数据分析的统计学方法(2)

时间：2026-01-05

·358·ChineseJournalofHealthStatistics，Apr2014，Vol．31，No．2

［11］

果在生物学上能够得到更合理的解释

表1

方法归一化

最大峰归一化总峰和归一化中心化均值中心化尺度化AutoscalingＲangescalingParetoscalingVastscalingLevelscaling数据转换Log转换Power转换

珋*：xsi=i=1/J∑xij，

j=1J

。

目的

除了进行传统的单变量假设检验分析，代谢组学分析中通常也计算代谢物浓度在两组间的改变倍数值

（foldchange），如计算某个代谢物浓度在两组中的均值之比，判断该代谢物在两组之间的高低表达。计算ＲOC曲线下面积（AUC）也是一种经常使用的方法

［14］

常见的数据预处理方法

公式

消除某些混杂

因素对代谢物浓度的干扰

xij＇=xij/xij

max

。

多变量分析

xij＇=xij/∑xij

消除初始值大小的影响

珋xij＇=xij－xi

消除不同代谢

物浓度数量级的差别）

代谢组学产生的是高维的数据，单变量分析不能揭示变量间复杂的相互作用关系，因此多变量统计分析在代谢组学数据分析中具有重要的作用。总体来说，代谢组学数据多变量统计分析方法大致可以分为两类：一类为非监督的学习方法，即在不给定样本标签的情况下对训练样本进行学习，如PCA、非线性映射（NLM）等；另一类为有监督的学习方法，即在给定样本标签的情况下对训练样本进行学习，如偏最小二乘

珋xij＇=（xij－xi）/Si

珋xij＇=（xij－xi）/（xi

max

－xi

min

珋ixij＇=（xij－xi）/珋珋xij＇=［（xij－x（xi）/si］i/si）

珋珋xij＇=（xij－xi）/xi

线性化数据结

构，消除异方差性的影响

xij＇=log2（xij）ijxij=＇

DA）、判别分析（PLS-基于正交信号校正的偏最小二

DA）、乘判别分析（OPLS-人工神经网络（ANN）、支持PCA、PLS-DA和OPLS-DA向量机（SVM）等。其中，

是目前代谢组学领域中使用最为普遍的多变量统计分

析方法。

PCA是从原始变量之间的相互关系入手，根据变异最大化的原则将其线性变换到几个独立的综合指标上（即主成分），直观地描述不取2～3个主成分作图，同组别之间的代谢模式差别和聚类结果，并通过载荷图寻找对组间分类有贡献的原始变量作为生物标志物。通常情况下，由于代谢组学数据具有高维、小样本PCA的分类结果往的特性，同时有噪声变量的干扰，

PCA作为代谢组学数据的预往不够理想。尽管如此，

分析和质量控制步骤，通常用于观察是否具有组间分［15］

类趋势和数据离群点。在组间分类趋势明显时，说明其中一定有能够分类的标志物。PCA还可以用于分析质控样品是否聚集在一起，如果很分散或具有一定的变化趋势，则说明检测质量存在一定的问题。ZhangZhiyu等（2010）通过PCA成功区分了骨肉瘤患者和正常人，并发现良性骨肿瘤患者中有两例是异常［16］

值。KishoreK.Pasikanti等（2009）利用PCA对尿液膀胱癌代谢组学数据进行分析后观察到质控样品在PCA得分图上紧密聚集，从而验证了仪器检测的稳定

［17］性和代谢组学数据的可靠性。

PLS-DA是目前代谢组学数据分析中最常使用的

（xij∑j=1

2珋－xi）/（J－1）

单变量分析方法

单变量分析方法简便﹑直观和容易理解，在代谢组学研究中通常用来快速考察各个代谢物在不同类别

之间的差异。代谢组学数据在一般情况下难以满足参数检验的条件，使用较多的是非参数检验的方法，如Wilcoxon秩和检验或Kruskal-Wallis检验，t＇检验也是一种比较好的统计检验方法。

由于代谢组学数据具有高维的特点，所以在进行

单变量分析时，会面临多重假设检验的问题。如果我们不对每次假设检验的检验水准α进行校正，则总体犯一类错误的概率会明显增加。一种解决方法是采用Bonferion校正，即用原检验水准除以假设检验的次数m作为每次假设检验新的检验水准（α/m）。由于Bonferion校正的方法过于保守，会明显降低检验效能，所以在实际中更为流行的一种做法是使用阳性发

FDＲ）。这种方法可用现错误率（falsediscoveryrate，

于估计多重假设检验的阳性结果中，可能包含多少假

阳性结果。FDＲ方法不仅能够将假阳性的比例控制在规定的范围内，而且较之传统的方法在检验效能上也得到显著的提高

［12］

。实际中也可以使用局部FDＲ

一种分类方法，它在降维的同时结合了回归模型，并利

用一定的判别阈值对回归结果进行判别分析。ZhangTao等（2013）运用PLS-DA技术分析尿液卵巢癌代谢

组学数据，成功将卵巢癌患者和良性卵巢肿瘤患者以及子宫肌瘤患者相互鉴别，并鉴定出组氨酸、色氨酸、

［18］

核苷酸等多种具有判别能力的卵巢癌生物标志物。

（用fdr表示），其结其定义为某一次检验差异显著时，果为假阳性的概率。局部FDＲ的使用，使得我们能够估计出任意变量为假阳性的概率，通常情况下有FDＲ≤fdr［13］。

…… 此处隐藏：141字，全部文档内容请下载后查看。喜欢就下载吧 ……