基于RNAseq技术的肝细胞肝癌转录组学研究(19)

发布时间:2021-06-06

通过均等化(normalization)来减少高丰度cDNA克隆的数量,最终使得文库

中所有的基因序列所占的比例大致相等。。

数据分析:获得EST序列数据后,通过与GenBank数据库进行核酸序

列或蛋白质序列的相似性比对,分析结果主要包括:该EST序列代表的是

已知基因;可能是尚未鉴定的新基因,与近源物种已知基因有极高的相似

度;可能是未知基因,在已有的数据库中没有任何匹配信息。未鉴定的新

基因和未知基因是EST分析最有意义的结果,可进行一系列的后续分析。

在寻找新基因研究中EST技术具有极高的灵敏度和准确度,因此通常将其

作为寻找新基因的“金标准”技术方法(gold standard method)[34-36]。

基于EST数据的转录组序列分析系统包括:NCBI的UniGene数据库、

TIGR的TIGR Gene Indices以及SANBI的STACK等。在转录组分析中,

UniGene除了利用dbEST的数据,还包括GenBank中的mRNA序列。其聚

类标准相对不严格,易于进行选择性剪接分析;TIGR Gene Indices分析可

获得较长的假设性一致序列(tentative consensus sequences, TCst);STACK

只利用dbEST的数据,先将EST数据按组织和状态信息进行分类,然后再

进行聚类及装配[37]。基于EST的转录组研究的数据分析包括:聚类前预

处理(pre-processing);聚类(clustering)和装配(assembly);基因注释及

功能分类;目的基因的分析及应用;数据发布等[38]。由于EST测序时存

在随机错误,同时检测到的EST序列还可能包括载体序列的污染、非基因

组源序列的污染、基因组序列的污染以及人工嵌合序列等,因此在挖掘EST

数据的生物学意义时必须建立可靠的分析策略以排除这些问题对聚类产生

的潜在影响,即聚类前预处理。常用程序为BLAST、RepeatMasker及

Crossmatch。EST技术应用于转录组学研究,其关键环节是进行EST的聚

类,聚类的目的就是将来自同一个基因或同一个转录本的具有重叠部分

(over-lapping)的ESTs整合至单一的簇(cluster)中。“合理聚类”的要求就是尽

可能减少EST的聚类错误。聚类方法可以分为基于相似性的EST聚类和基

于基因组定位的EST聚类。由于EST对基因的覆盖具有末端偏好性,因此

精彩图片

热门精选

大家正在看