代谢组学数据分析的统计学方法(2)
发布时间:2021-06-06
发布时间:2021-06-06
·358·ChineseJournalofHealthStatistics,Apr2014,Vol.31,No.2
[11]
果在生物学上能够得到更合理的解释
表1
方法归一化
最大峰归一化总峰和归一化中心化均值中心化尺度化AutoscalingRangescalingParetoscalingVastscalingLevelscaling数据转换Log转换Power转换
珋*:xsi=i=1/J∑xij,
j=1J
。
目的
除了进行传统的单变量假设检验分析,代谢组学分析中通常也计算代谢物浓度在两组间的改变倍数值
(foldchange),如计算某个代谢物浓度在两组中的均值之比,判断该代谢物在两组之间的高低表达。计算ROC曲线下面积(AUC)也是一种经常使用的方法
[14]
常见的数据预处理方法
公式
消除某些混杂
因素对代谢物浓度的干扰
xij'=xij/xij
max
。
多变量分析
xij'=xij/∑xij
消除初始值大小的影响
珋xij'=xij-xi
消除不同代谢
物浓度数量级的差别)
代谢组学产生的是高维的数据,单变量分析不能揭示变量间复杂的相互作用关系,因此多变量统计分析在代谢组学数据分析中具有重要的作用。总体来说,代谢组学数据多变量统计分析方法大致可以分为两类:一类为非监督的学习方法,即在不给定样本标签的情况下对训练样本进行学习,如PCA、非线性映射(NLM)等;另一类为有监督的学习方法,即在给定样本标签的情况下对训练样本进行学习,如偏最小二乘
珋xij'=(xij-xi)/Si
珋xij'=(xij-xi)/(xi
max
-xi
min
珋ixij'=(xij-xi)/珋珋xij'=[(xij-x(xi)/si]i/si)
珋珋xij'=(xij-xi)/xi
线性化数据结
构,消除异方差性的影响
xij'=log2(xij)ijxij='
DA)、判别分析(PLS-基于正交信号校正的偏最小二
DA)、乘判别分析(OPLS-人工神经网络(ANN)、支持PCA、PLS-DA和OPLS-DA向量机(SVM)等。其中,
是目前代谢组学领域中使用最为普遍的多变量统计分
析方法。
PCA是从原始变量之间的相互关系入手,根据变异最大化的原则将其线性变换到几个独立的综合指标上(即主成分),直观地描述不取2~3个主成分作图,同组别之间的代谢模式差别和聚类结果,并通过载荷图寻找对组间分类有贡献的原始变量作为生物标志物。通常情况下,由于代谢组学数据具有高维、小样本PCA的分类结果往的特性,同时有噪声变量的干扰,
PCA作为代谢组学数据的预往不够理想。尽管如此,
分析和质量控制步骤,通常用于观察是否具有组间分[15]
类趋势和数据离群点。在组间分类趋势明显时,说明其中一定有能够分类的标志物。PCA还可以用于分析质控样品是否聚集在一起,如果很分散或具有一定的变化趋势,则说明检测质量存在一定的问题。ZhangZhiyu等(2010)通过PCA成功区分了骨肉瘤患者和正常人,并发现良性骨肿瘤患者中有两例是异常[16]
值。KishoreK.Pasikanti等(2009)利用PCA对尿液膀胱癌代谢组学数据进行分析后观察到质控样品在PCA得分图上紧密聚集,从而验证了仪器检测的稳定
[17]性和代谢组学数据的可靠性。
PLS-DA是目前代谢组学数据分析中最常使用的
(xij∑j=1
2珋-xi)/(J-1)
单变量分析方法
单变量分析方法简便﹑直观和容易理解,在代谢组学研究中通常用来快速考察各个代谢物在不同类别
之间的差异。代谢组学数据在一般情况下难以满足参数检验的条件,使用较多的是非参数检验的方法,如Wilcoxon秩和检验或Kruskal-Wallis检验,t'检验也是一种比较好的统计检验方法。
由于代谢组学数据具有高维的特点,所以在进行
单变量分析时,会面临多重假设检验的问题。如果我们不对每次假设检验的检验水准α进行校正,则总体犯一类错误的概率会明显增加。一种解决方法是采用Bonferion校正,即用原检验水准除以假设检验的次数m作为每次假设检验新的检验水准(α/m)。由于Bonferion校正的方法过于保守,会明显降低检验效能,所以在实际中更为流行的一种做法是使用阳性发
FDR)。这种方法可用现错误率(falsediscoveryrate,
于估计多重假设检验的阳性结果中,可能包含多少假
阳性结果。FDR方法不仅能够将假阳性的比例控制在规定的范围内,而且较之传统的方法在检验效能上也得到显著的提高
[12]
。实际中也可以使用局部FDR
一种分类方法,它在降维的同时结合了回归模型,并利
用一定的判别阈值对回归结果进行判别分析。ZhangTao等(2013)运用PLS-DA技术分析尿液卵巢癌代谢
组学数据,成功将卵巢癌患者和良性卵巢肿瘤患者以及子宫肌瘤患者相互鉴别,并鉴定出组氨酸、色氨酸、
[18]
核苷酸等多种具有判别能力的卵巢癌生物标志物。
(用fdr表示),其结其定义为某一次检验差异显著时,果为假阳性的概率。局部FDR的使用,使得我们能够估计出任意变量为假阳性的概率,通常情况下有FDR≤fdr[13]。
上一篇:八年级物理 期中考试计算题
下一篇:钢笔字教程