信号通路相关文献挖掘与分析方法研究
发布时间:2021-06-05
发布时间:2021-06-05
信号通路相关文献挖掘与分析方法研究摘要
‘摘要
生物信息学是以计算机为工具对生物信息进行储存、检索和分析的科学。随着生物医学文献的爆炸式增长,运用数据挖掘方法从文献中发现新知识受到越来越多的学者的关注。生物信息学研究的一个重要应用是开发信息检索的工具,对分散在文献里的有用信息进行系统整理。相对于传统的文献检索方法,这些方法具有速度快、自动化程度高的优点,尤其适用于大规模文献分析。
信号通路是生物对外界刺激做出反应的物质基础,几乎参与所有的细胞生命活动:代谢、分裂、分化、行使功能、凋亡等。近年来,与信号通路有关的研究如火如茶,但是大量的珍贵研究成果散落在海量的生物医学文献中,因此搜集、整理与信号通路有关的信息,对于全面理解生物进行复杂调控的机制具有重要意义。本文主要以信号通路的研究为背景,对蛋白磷酸化和基因转录调控这两个关键环节的文献进行搜集整理,并利用获得的文献数据预测蛋白磷酸化位点、推断癌症芯片中的转录因子和信号通路,旨在揭示信号通路的磷酸化机制以及信号通路在疾病、特别是癌症的产生和发展过程中的作用机制。
本文完成的有特色的研究工作主要包括:
I.基因的表达调控是信号通路中的重要环节,是信号通路的输出结果之一。本文提出了一种采用贝叶斯统计方法挖掘基因转录调控一转录因子结合位点信息的方法。通过大量统计获得描述转录因子结合位点文献中的特征单词,再使用贝叶斯统计的方法对未知类别的文献打分,根据分数判断一个未知分类的文献是否描述转录因子结合位点。从理论上证明这种方法与传统的TF/IDF方法是一致的。将该方法与PubMed提供的相关文献方法结合,可以极大提高数据挖掘效率,减少硬件消耗。本文方法能达到91%查全率,45%查准率。与关键词的方法(查全率<83%,查准率<26%)相比性能显著提高;查全率接近单独使用相关文献法(查全率93%,查准率27%),但查准率提高了不少,能极大提高数据挖掘的效率。应用本文的方法,共获得了61,000篇描述转录因子结合位点的文献。
2.蛋白激酶催化蛋白质磷酸化,在信号转导中起着信息转换的作用。本文再次利用贝叶斯统计和相关文献的方法对蛋白激酶的磷酸化位点数据进行搜索,并结合模式识别技术对描述磷酸化位点的句子进行颜色标记。共查找出701篇文