代谢组学数据分析的统计学方法(2)

发布时间:2021-06-06

·358·ChineseJournalofHealthStatistics,Apr2014,Vol.31,No.2

[11]

果在生物学上能够得到更合理的解释

表1

方法归一化

最大峰归一化总峰和归一化中心化均值中心化尺度化AutoscalingRangescalingParetoscalingVastscalingLevelscaling数据转换Log转换Power转换

珋*:xsi=i=1/J∑xij,

j=1J

目的

除了进行传统的单变量假设检验分析,代谢组学分析中通常也计算代谢物浓度在两组间的改变倍数值

(foldchange),如计算某个代谢物浓度在两组中的均值之比,判断该代谢物在两组之间的高低表达。计算ROC曲线下面积(AUC)也是一种经常使用的方法

[14]

常见的数据预处理方法

公式

消除某些混杂

因素对代谢物浓度的干扰

xij'=xij/xij

max

多变量分析

xij'=xij/∑xij

消除初始值大小的影响

珋xij'=xij-xi

消除不同代谢

物浓度数量级的差别)

代谢组学产生的是高维的数据,单变量分析不能揭示变量间复杂的相互作用关系,因此多变量统计分析在代谢组学数据分析中具有重要的作用。总体来说,代谢组学数据多变量统计分析方法大致可以分为两类:一类为非监督的学习方法,即在不给定样本标签的情况下对训练样本进行学习,如PCA、非线性映射(NLM)等;另一类为有监督的学习方法,即在给定样本标签的情况下对训练样本进行学习,如偏最小二乘

珋xij'=(xij-xi)/Si

珋xij'=(xij-xi)/(xi

max

-xi

min

珋ixij'=(xij-xi)/珋珋xij'=[(xij-x(xi)/si]i/si)

珋珋xij'=(xij-xi)/xi

线性化数据结

构,消除异方差性的影响

xij'=log2(xij)ijxij='

DA)、判别分析(PLS-基于正交信号校正的偏最小二

DA)、乘判别分析(OPLS-人工神经网络(ANN)、支持PCA、PLS-DA和OPLS-DA向量机(SVM)等。其中,

是目前代谢组学领域中使用最为普遍的多变量统计分

析方法。

PCA是从原始变量之间的相互关系入手,根据变异最大化的原则将其线性变换到几个独立的综合指标上(即主成分),直观地描述不取2~3个主成分作图,同组别之间的代谢模式差别和聚类结果,并通过载荷图寻找对组间分类有贡献的原始变量作为生物标志物。通常情况下,由于代谢组学数据具有高维、小样本PCA的分类结果往的特性,同时有噪声变量的干扰,

PCA作为代谢组学数据的预往不够理想。尽管如此,

分析和质量控制步骤,通常用于观察是否具有组间分[15]

类趋势和数据离群点。在组间分类趋势明显时,说明其中一定有能够分类的标志物。PCA还可以用于分析质控样品是否聚集在一起,如果很分散或具有一定的变化趋势,则说明检测质量存在一定的问题。ZhangZhiyu等(2010)通过PCA成功区分了骨肉瘤患者和正常人,并发现良性骨肿瘤患者中有两例是异常[16]

值。KishoreK.Pasikanti等(2009)利用PCA对尿液膀胱癌代谢组学数据进行分析后观察到质控样品在PCA得分图上紧密聚集,从而验证了仪器检测的稳定

[17]性和代谢组学数据的可靠性。

PLS-DA是目前代谢组学数据分析中最常使用的

(xij∑j=1

2珋-xi)/(J-1)

单变量分析方法

单变量分析方法简便﹑直观和容易理解,在代谢组学研究中通常用来快速考察各个代谢物在不同类别

之间的差异。代谢组学数据在一般情况下难以满足参数检验的条件,使用较多的是非参数检验的方法,如Wilcoxon秩和检验或Kruskal-Wallis检验,t'检验也是一种比较好的统计检验方法。

由于代谢组学数据具有高维的特点,所以在进行

单变量分析时,会面临多重假设检验的问题。如果我们不对每次假设检验的检验水准α进行校正,则总体犯一类错误的概率会明显增加。一种解决方法是采用Bonferion校正,即用原检验水准除以假设检验的次数m作为每次假设检验新的检验水准(α/m)。由于Bonferion校正的方法过于保守,会明显降低检验效能,所以在实际中更为流行的一种做法是使用阳性发

FDR)。这种方法可用现错误率(falsediscoveryrate,

于估计多重假设检验的阳性结果中,可能包含多少假

阳性结果。FDR方法不仅能够将假阳性的比例控制在规定的范围内,而且较之传统的方法在检验效能上也得到显著的提高

[12]

。实际中也可以使用局部FDR

一种分类方法,它在降维的同时结合了回归模型,并利

用一定的判别阈值对回归结果进行判别分析。ZhangTao等(2013)运用PLS-DA技术分析尿液卵巢癌代谢

组学数据,成功将卵巢癌患者和良性卵巢肿瘤患者以及子宫肌瘤患者相互鉴别,并鉴定出组氨酸、色氨酸、

[18]

核苷酸等多种具有判别能力的卵巢癌生物标志物。

(用fdr表示),其结其定义为某一次检验差异显著时,果为假阳性的概率。局部FDR的使用,使得我们能够估计出任意变量为假阳性的概率,通常情况下有FDR≤fdr[13]。

代谢组学数据分析的统计学方法(2).doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219