代谢组学数据分析的统计学方法
发布时间:2021-06-06
发布时间:2021-06-06
20144312·357·
代谢组学数据分析的统计学方法
柯朝甫
1
*
张涛
2
武晓岩
1
李康
1Δ
代谢组学是近年发展快速的一门学科,目前在医学、植物学、微生物学、毒理学、药物研发等诸多领域中
[1-5]
。代谢组学研究产生大量的数得到了广泛的应用
据,这些数据具有高维、小样本、高噪声等复杂特征。
(4)相互作用关系复杂:各种代谢物质可能不仅
具有简单的相加效应,而且可能具有交互作用,从而增加了识别这些具有复杂关系的生物标志物的难度。
(5)相关性和冗余性:各种代谢物并非独立存在,而是相互之间具有不同程度的相关性,同时由于碎片、加合物和同位素的存在使得数据结构存在很大的冗余性,这就需要采用合理的统计分析策略来揭示隐藏其中的复杂数据关系。
(6)分布的不规则和稀疏性:代谢组学数据分布不规则,而且数据具有稀疏性(即有很多值为零),因此,传统的一些线性和参数分析方法此时可能失效。
数据的预处理
代谢组学数据分析的目的是希望从中挖掘出生物相关信息,然而,代谢组学数据的变异来源很多,不仅包括生物变异,还包括环境影响和操作性误差等方面。处理手段主要包括归一化(standardization)、标准化(normalization),即中心化(centering)和尺度化(scal-[10]
。归一化是针ing),以及数据转换(transformation)对样品的操作,由于生物个体间较大的代谢物浓度差
异或样品采集过程中的差异(如取不同时间的尿样),一般使用代谢物的相为了消除或减轻这种不均一性,
对浓度,即每个代谢物除以样品的总浓度,以此来校正个体差异或其他因素对代谢物绝对浓度的影响。标准化是对不同样品代谢物的操作,即统计学意义上的变量标准化。标准化的目的是消除不同代谢物浓度数量级的差别,但同时也可能会过分夸大低浓度组分的重要性,即低浓度代谢物的变异系数可能更大。数据转换是指对数据进行非线性变换,如log转换和power转换等。数据转换的目的是将一些偏态分布的数据转换成对称分布的数据,并消除异方差性的影响,以满足一些线性分析技术的要求。不同的预处理方法会对统计分析结果产生不同的影响(见表1),我在实际应用中,们应该根据具体的研究目的﹑数据类型以及要选用的统计分析方法综合考虑,选择适当的预处理方式。例RobertA.vandenBerg等(2006)通过实际代谢组如,
学数据的分析发现,选用不同预处理方法在很大程度上影响着主成分分析(PCA)的结果,自动尺度化(au-toscaling)和全距尺度化(rangescaling)在对代谢组学数据进行探索性分析时表现更优,其PCA分析后的结
如何从复杂的代谢组学数据中提取出有价值的信息,筛选出潜在的生物标志物成为近年来代谢组学研究的
热点和难点。据此,本文针对目前代谢组学数据分析中的常用统计学方法及其研究进展进行介绍。
代谢组学数据的特点
代谢组学是系统生物学领域中继基因组学和蛋白质组学之后新近发展起来的一门学科,它通过检测生物体在受到外源刺激或基因修饰后其体内代谢物质的
[6]
变化来探索整个生物体的代谢机制。其研究对象为生物体内所有内源性小分子代谢物(分子量<1000Da),研究手段为高通量检测技术和数据处理方法,最终目标是数据建模和生物标志物的筛选。生物
LC/样品如血浆、尿液、组织等,经过GC/MS、NMR、MS等高通量仪器检测后,得到大量的图谱数据,使用XCMS[7]等软件对这些图谱数据进行转换,获得用于统计分析的标准格式的数据。归纳起来,代谢组学数
据具有以下特点:
(1)高噪声:生物体内含有大量维持自身正常功能的内源性小分子,具有特定研究意义的生物标志物只是其中很少一部分,绝大部分代谢物和研究目的无关。
(2)高维、小样本:代谢物的数目远大于样品个数,不适合使用传统的统计学方法进行分析,多变量分
[8]析容易出现过拟合和维数灾难问题。
(3)高变异性:一是不同代谢物质的理化性质差[9]
异巨大,其浓度含量动态范围宽达7~9个数量级,二是生物个体间存在各种来源的变异,如年龄、性别都
可能影响代谢产物的变化,三是仪器测量受各种因素影响,容易出现随机测量误差和系统误差,这使得识别有重要作用的生物标志物可能极其困难。
*国家自然科学基金资助(81172767);高等学校博士学科专项基金(20122307110004)
1.哈尔滨医科大学卫生统计学教研室(150081)2.山东大学卫生统计学教研室
E-mail:likang@Δ通信作者:李康,
上一篇:八年级物理 期中考试计算题
下一篇:钢笔字教程