生物信息学miRNA
发布时间:2021-06-08
发布时间:2021-06-08
第十六章 MicroRNA与复杂疾病MicroRNA And Complex Disease
哈尔滨医科大学 李霞
第一节 引言 Section 1 IntroductionMicroRNA简称miRNA,一类非编码的小RNA分子(约22
个核苷酸),通过和其靶基因3′非翻译区结合,导致RNA诱导的沉默复合体(RNA-induced silencing complex, 简称RISC)降解其靶mRNA或阻碍其靶的翻译。 随着miRNA在复杂疾病中的研究深入,研究者发现在 疾病的发生发展过程中起着巨大的作用,其功能异常能够
导致各种人类复杂疾病的发生。这将使miRNA可能成为疾病诊断、预后的新的生物学标记(biomark),并为更进 一步理解复杂疾病的发病机理提供了新的手段。
第二节 miRNA与靶基因 Section 2 miRNAs and Their Targets一、miRNA生物起源(一) miRNA的发现miRNA首次发现于1993年,是在对秀丽新小杆线虫 发育过程的研究中发现的,命名为Lin-4,它通过与Lin-14 的3′UTR相互作用,调节线虫的发育。随后,在线虫、果 蝇、Hela细胞、斑马鱼、人类、拟南芥和水稻等多种真核 模式生物中找到了上百个类似的小分子RNA,并将其称
miRNA。
(二)microRNA生物起源
miRNA 基因Dicer酶
成熟miRNA和miRNA*
细 胞 核 初始miRNA 剪切 miRNA前体转运蛋白
剪切 转录 成熟miRNA
降解
miRNA*
RNA诱导沉默复合物
miRNA种子区与靶mRNA 完全互补则降解
细胞质靶mRMA 3’端 miRNA种子区与靶mRNA 不完全互补则抑制翻译
细胞
(三)miRNA的特点
序列特点
miRNA本身不具有开放阅读框ORF,不编码蛋白质 成熟的miRNA 5′ 端为单一磷酸基团,3′端为羟基 miRNA具有时序性以及组织特异性 在特定的时间,组织中才会表达 miRNA与其靶基因间是多对多的关系 一个miRNA可能调控多个靶基因 一个基因也可能受多个miRNA调控
表达特点
调控特点
物理位置特点
miRNA倾向于成簇出现在染色体上 通常定义50kb的距离为一簇在物种间高度
保守型特点
miRNA的作用机制
抑制或降解 取决于miRNA与靶mRNA种子区域的互补程度 种子区域 通常指miRNA 5′端第二位到第八位的核苷酸序 列 两者完全互补 降解 两者不完全互补 抑制翻译
二、基于序列的miRNA靶基因预测方法
miRNA靶基因预测遵循的基本原则
miRandaTargetScan RNAhybrid TargetBoost和miTarget 其他方法
(一)miRNA靶点类型miRNA 的靶点通常分为两类: 5 ′ 端主导型(5 ′ -dominant)
3′ 端补充型(3
′ -compensatory)
5 ′端主导型又分为5 ′ 端主导的“标准型”(canonical)和“种子型”(seed)
(二)miRNA靶基因预测遵循的原则和基本步骤遵循的原则 miRNA的“种子区”与mRNA的3′UTR序列
碱基互补 靶点在多物种间的序列保守性 miRNA与mRNA形成双链结构的热力学稳定性 靶基因二级结构和靶点外的序列对靶基因预测的影响 基本步骤
在3′UTR上探寻和miRNA“种子区”完全互补的序列; 计算miRNA和这些序列结合产生的自由能下降值,对靶点 进行筛选; 对靶点进行物种间序列比对,利用物种保守性进一步筛选。
(三)miRanda
第一个利用生物信息学方法开发的基于序列的 miRNA靶基因预测算法
/research/sander/data/miRNA2003/miranda_new.html
miRanda算法的基本步骤
对miRNA和mRNA的3′UTR序列进行碱基互补 分析,碱基互补遵循4个规则; miRanda采用一种类似于Smith-Waterman的算 法来构建打分矩阵; miRNA与靶基因形成二聚体的热力学稳定性方 面, miRanda利用Vienna软件包中的RNAlib 计 算miRNA与mRNA 3′UTR结合的自由能; miRanda要求靶点在多物种间保守,即靶点在 多物种3′UTR序列比对中相同位置具有相同的碱 基。
(四)TargetScan
TargetScan主要考虑物种间保守的miRNA靶基因,并且 在TargetScan中首次提出了“种子匹配”(seed match) 的概念。
/
TargetScan算法的基本步骤
在 TargetScan 算 法 中 , “ 种 子 匹 配 ” 被 定 义 为 miRNA 5′端的第2~8位碱基与mRNA 3′UTR 上 的一段7nt(nucleotide)序列完全互补,miRNA 上的这7个核苷酸被称为miRNA “种子区”。 从种子区开始向miRNA两侧寻找互补碱基,允许 G-U配对,直到出现碱基错配为止。在物种保守 方面,TargetScan算法发现随着物种数目的增多, 预测的靶基因数目逐渐减少, 但预测结果的准确率 得到提高。
(五)RNAhybrid算法
RNAhybrid考虑了靶基因结合自由能对预测结果 的影响。该算法利用动态规划算法寻找一条短链 RNA(miRNA)和一条长链RNA(mRNA 3′UTR)杂交时的最优自由能鉴别miRNA的靶点。 与其他的RNA二级结构预测软件mfold、RNAfold 等相比,RNAhybrid除了具有明显的速度优势外, RNAhybrid算法还禁止miRNA 分子间和靶基因间 杂交产生二聚体。 RNAhybrid没有考虑靶基因的物种间保守性,允 许用户自己定义自由能的阈值、P 值,也允许用 户自己设置miRNA“种子区”的位置和长度以及 是否允许出现G-U错配等。
(六)机器学习方法
通过在少量实验证实的miRNA靶基因集合内提取 miRNA与靶基因的结合特征,并利用这些特征训 练分类器来预测miRNA的靶基因。 如TargetBoost和miTarget等miRNA靶基因预测算 法都是基于机器学习方法开发的,这些算法从实 验证实的miRNA靶基因集出发,评估miRNA与靶 基因结合的序列特征、二聚体结构特征和热力学 特征等参数,最
后对预测的靶基因进行打分。
(七)二级结构的影响
在 miRNA 与 靶 基 因 结 合 的 过 程 中 , mRNA 的 3′UTR二级结构起着重要作用。 miRNA靶点几乎都落入3′UTR的二级结构不稳定 区域内,通过计算mRNA 的3′UTR二级结构被破 坏 、 形 成 或 破 坏 碱 基 互 补 配 对 、 形 成 miRNAmRNA二聚体时获得或损失的自由能,可以鉴别 miRNA靶基因; 通过实验发现,提高靶点附近序列二级结构的稳 定性大大降低了miRNA对靶基因的作用。
(八)靶点周围序列的影响
靶点外的序列也对miRNA调节靶基因起到重要作 用。 靶点后的一段序列对miRNA与靶基因的识别起着 重要的作用,对该段序列突变后miRNA对靶基因 的调控作用明显减弱,而将该段序列完全删除后 miRNA对靶基因的调控作用完全消失。 在miRNA调控靶基因的过程中, 靶点外的其他序 列甚至整个3′UTR序列都起到了关键作用,这些 序列可能是RNA结合蛋白的作用位点。
三、基于表达信息或实验结果预测miRNA靶 基因
研究人员认为miRNA结合在mRNA的3′UTR上抑 制mRNA翻译成蛋白质,降低蛋白质丰度,并不 会影响到相应mRNA的表达水平。 现在已经明确认为:在许多情况下,miRNA还能 直接对mRNA的表达产生影响。科研人员已经开 发了整合表达信息的miRNA靶基因预测算法,并 证明了表达信息在miRNA靶基因预测上的重要价 值。
Huang等人利用在88个组织中同时检测了miRNA和mRNA 表达的数据,并结合贝叶斯方法开发了靶基因预测算法 GenMiR++,得到了104个人类miRNA的高精度靶基因, 并通过实验证实了预测的let-7b靶基因,结果表明,与基于 序 列 的 方 法 相 比 , 利 用 相 同 样 本 中 同 时 检 测 miRNA 和 mRNA的表达谱可以更准确的预测miRNA靶基因。 (Huang, Using expression profiling data to identify human microRNA targets. Nat. Methods.)
Gennarino等人通过研究miRNA宿主基因(host gene)的表达情况,开 发了miRNA靶基因预测算法HOCTAR。HOCTAR是第一个利用miRNA 宿主基因表达与mRNA表达信息进行miRNA靶基因预测的算法,它基于 两者表达的逆相关(inversely correlated)特征对预测的miRNA靶基因进 行筛选。通过对178个人类miRNA的宿主基因分析,发现预测准确性优于 现存的基于序列的预测方法,HOCTAR减少了基于序列算法预测的靶基 因数量。 (V. A. Gennarino, MicroRNA target prediction by expression analysis of host genes. Genome Res.)
人民卫生出版社8年制及7年制临床医学等专业用《生物信息学》
Bandyopadhyay等人利用miRNA的表达谱和mRNA表达谱构建一组阴性 样本集,并利用机器学习方法开发了miRNA靶基因预测算法 TargetMiner。由于当前实验证实的miRNA靶基因
阴性数据较少,用机 器学习方法预测miRNA靶基因常具有较高的假阳性率,作者从miRNA 和mRNA的表达谱中得到了300多个组织特异的阴性样本,并结合实验证 实的miRNA靶基因数据,利用支持向量机(SVM)方法开发了新的 miRNA靶基因算法。 (Sanghamitra Bandyopadhyay, TargetMiner: microRNA target prediction with systematic identification of tissue-specific negative examples.Bioinformatics.)