最大信息原理、能量及选择约束在基因剪接位点预测分析中应用的研究

最大信息原理、能量及选择约束在基因剪接位点预测分析中应用的研究

论文摘要

确定基因组内所有基因并阐明基因的功能,不仅要依靠实验手段,还需要发展理论方法对实验进行指导。最大信息原理(maximum information principle,MIP)是非平衡统计理论的一个基本原理,该原理是模拟生物进化中突变——选择机制的一个很好的模型,可作为生物信息学提取信息的重要依据。完整基因结构的预测是当前研究的一个重要课题,其中一个关键环节是剪接位点(包括组成性和可变剪接位点)及各种可变剪接事件的精确识别,而预测已知剪接位点的侧翼竞争者是预测可变5’或者可变3’剪接位点事件的关键。本文把最大信息原理应用到剪接反应理论分析中,导出了剪接位点片段的反应自由能表达式;通过引入选择压力指数概念及相应的约束,导出了序列片段中k-mer的选择压力指数表达式。当把理论应用到剪接位点及其侧翼竞争者的预测问题时,获得了较高的预测精度。主要研究内容如下:1.从剪接反应的基本物理原则出发,应用传统最大信息原理分析了剪接位点保守片段。引入剪接位点片段在剪接反应中所涉及的反应自由能概念及相应的约束条件,基于反应自由能加性假设,推导出了剪接位点片段所涉及反应自由能的表达式。作为一个简化模型,该式能用于估计一个5’或者3’剪接位点片段在剪接反应中所涉及的自由能变化。把它运用到剪接位点的预测问题中进行检验时,预测结果精度较高,这说明其较为合理地反映了剪接反应的实际情况。2.作为剪接反应自由能理论估计的一个开端,精确性仍需提高。我们进一步把反应自由能加性假设改进为包含了剪接位点片段中各碱基之间关联的形式,并把传统的最大信息原理改进为包含背景概率的形式;进而导出一个不但考虑了背景概率影响,而且较全面地包括了片段中各碱基之间关联的更精确的剪接位点片段所涉及反应自由能估计表达式。使用该式对剪接位点进行预测时,预测精度与改进前相比有明显提高,说明改进后的表达式更为成功地符合了剪接反应过程。3.使用改进后的剪接位点片段反应自由能表达式预测了人类和小鼠基因中的可变和组成性剪接位点及其侧翼竞争者,预测结果较好,精度比得上最大熵模型等一些当前流行的方法。对于已知剪接位点侧翼竞争者的预测,使用竞争者片段本身的反应自由能估计值预测的精度要高于另一个预测指标——已知剪接位点片段和候选竞争者片段之间的反应自由能估计值之差,这说明就大量剪接位点的总体效果而言,在已知剪接位点片段和侧翼竞争者片段之间的反应自由能竞争不是一个决定可变剪接位点选择的唯一主要因素。4.为了把序列片段或其中k-mer所受的自然选择强度数量化,引入选择压力指数的概念,并引入相应的约束条件,利用最大信息原理推导出序列片段中k-mer的选择压力指数表达式。该式易于和功能联系而对某些功能物理量进行定量估计,前面的剪接反应自由能估计方法也可被纳入到选择压力指数理论框架内。当把理论应用到人和小鼠的组成性和可变剪接位点预测中时,反应自由能估计值和侧翼序列中k-mer的平均选择压力指数共三个指标用二次判别法整合形成的综合方法的预测能力与单个反应自由能指标相比有明显提高。5.基于序列信息量构造了可用于编码区预测的信息差异指数,它的预测能力比得上非均匀指数。使用选择压力指数分析了剪接位点侧翼序列中k-mer所受选择的情况,得到5’剪接位点左侧的GT二核苷酸以及3’剪接位点左和右侧的AG受到较强负选择等一些有意义的结论;还发现剪接位点左右两侧序列中k-mer所受选择情况存在较大差异,并基于此结果设计了两个预测指标。通过选用反应自由能估计值等七个指标,二次判别法整合后对已知剪接位点侧翼竞争者进行预测,精度高于文献中的其它预测方法,是目前为止侧翼竞争者预测方法中精度最高的。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究课题的背景
  • 1.2 剪接过程与可变剪接简介
  • 1.2.1 剪接位点和剪接反应
  • 1.2.2 可变剪接
  • 1.3 剪接位点及其侧翼竞争者预测研究现状
  • 1.3.1 目前主要的剪接位点预测方法
  • 1.3.2 存在的问题
  • 1.3.3 目前报道的已知剪接位点侧翼竞争者预测主要方法
  • 1.4 最大信息原理及其理论生物学应用简述
  • 1.4.1 最大信息原理介绍
  • 1.4.2 最大信息原理的理论生物学应用简述
  • 1.5 剪接位点片段所涉及的反应自由能概念
  • 1.6 论文的研究内容与安排
  • 第二章 传统最大信息原理在剪接位点预测中应用的研究
  • 2.1 引言
  • 2.2 根据最大信息原理推导出反应自由能表达式
  • 2.3 受约束保守位点范围的估计
  • 2.4 反应自由能表达式在剪接位点预测中的应用
  • 2.4.1 数据集
  • 2.4.2 伪计数方法
  • 2.4.3 预测模型的评估和预测规则
  • 2.4.4 参与预测的位点范围估计
  • 2.4.5 预测结果
  • 2.5 小结
  • 第三章 剪接位点片段反应自由能估计方法的改进
  • 3.1 引言
  • 3.2 使用改进的自由能加性假设和最大信息原理导出反应自由能表达式
  • 3.3 改进后的反应自由能表达式在剪接位点预测中的应用
  • 3.3.1 等式(3-13)中最优k值的估计
  • 3.3.2 预测结果与讨论
  • 3.4 小结
  • 第四章 使用估计的反应自由能预测可变和组成性剪接位点及其侧翼竞争者
  • 4.1 引言
  • 4.2 数据集
  • 4.3 结果与讨论
  • 4.3.1 (3-14)式中最优k值的估计
  • 4.3.2 可变和组成性剪接位点的预测结果与比较
  • 4.3.3 和其它方法的比较
  • 4.3.4 预测已知剪接位点的侧翼竞争者
  • 4.4 小结
  • 第五章 选择压力指数在剪接位点预测中的应用
  • 5.1 引言
  • 5.2 选择压力指数表达式的一般推导过程
  • 5.3 运用选择压力指数预测剪接位点
  • 5.3.1 剪接位点保守片段的选择压力指数
  • 5.3.2 剪接位点侧翼序列中k-mer的选择压力指数
  • 5.3.3 二次判别分析法简介
  • 5.3.4 三个指标用二次判别法综合后的预测结果及讨论
  • 5.4 小结
  • 第六章 剪接位点及其侧翼竞争者的进一步预测和分析
  • 6.1 引言
  • 6.2 信息差异指数的定义以及在剪接位点预测中的应用
  • 6.2.1 反映编码区各相位非均匀性的信息差异指数
  • 6.2.2 使用信息差异指数预测剪接位点
  • 6.3 剪接位点侧翼序列中k-mer所受选择情况的选择压力指数分析
  • 6.4 七个指标用二次判别法综合后对竞争者的预测结果及讨论
  • 6.5 小结
  • 第七章 总结与展望
  • 7.1 本文工作总结
  • 7.2 工作展望
  • 参考文献
  • 附录
  • 致谢
  • 攻读博士学位期间发表和完成的学术论文
  • 相关论文文献

    • [1].基于卷积神经网络的基因剪接位点预测[J]. 盐城工学院学报(自然科学版) 2020(02)
    • [2].果蝇非经典剪接位点的生物信息学预测[J]. 生物技术通讯 2010(06)
    • [3].基于模糊支持向量机的剪接位点识别[J]. 计算机应用 2011(04)
    • [4].改进的基于支持向量机模型剪接位点的预测[J]. 宜宾学院学报 2014(12)
    • [5].一种新的真核基因剪接位点识别方法[J]. 电子学报 2011(05)
    • [6].基于统计差表与加权投票的高精度剪接位点预测[J]. 生物化学与生物物理进展 2019(05)
    • [7].利用多样性增量位置得分函数预测人类5'非翻译区剪接位点[J]. 内蒙古工业大学学报(自然科学版) 2009(04)
    • [8].基于深度卷积神经网络识别可变剪接位点[J]. 基因组学与应用生物学 2019(11)
    • [9].预测竞争性和非竞争性剪接位点对(英文)[J]. 内蒙古大学学报(自然科学版) 2008(03)
    • [10].使用估计的反应自由能预测组成性和可变剪接位点[J]. 生物物理学报 2009(01)
    • [11].Alu中剪接位点的研究[J]. 生物信息学 2008(01)
    • [12].基于神经网络预测的SNP信息的剪接点识别算法研究[J]. 计算机工程与科学 2016(05)
    • [13].一种基于概率统计特征的剪接位点识别方法[J]. 计算机工程与应用 2011(31)
    • [14].KL距离的变长马尔可夫模型识别人类剪接位点[J]. 生物物理学报 2011(08)
    • [15].人类基因组中可变和组成性剪接位点的预测[J]. 生物化学与生物物理进展 2008(10)
    • [16].基于剪接信号和调节元件序列特征的剪接位点预测方法[J]. 科学通报 2008(19)
    • [17].一种基于综合信息的剪接位点识别方法[J]. 华中科技大学学报(自然科学版) 2011(03)
    • [18].老鼠基因组盒式外显子和内含子保留型可变剪接位点预测[J]. 内蒙古大学学报(自然科学版) 2009(05)
    • [19].基于快速傅里叶变换的剪接特征提取[J]. 北京理工大学学报 2014(02)
    • [20].CD45分子选择性剪接亚型的功能和调节[J]. 解剖学研究 2014(05)
    • [21].一种新的非翻译区剪接位点识别方法[J]. 生命科学研究 2012(01)
    • [22].Kartagener综合征DNAI1、DNAH5基因研究[J]. 中国实用儿科杂志 2008(12)
    • [23].甘油磷酸二酯酶家族蛋白的分子进化[J]. 基因组学与应用生物学 2015(01)
    • [24].多尺度组分特征和位点关联特征相融合的剪接位点识别[J]. 计算机工程与应用 2014(10)
    • [25].牙本质生长不全Ⅱ型家系DSPP基因内含子2的mRNA剪接位点新的缺失突变[J]. 临床检验杂志 2009(02)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    最大信息原理、能量及选择约束在基因剪接位点预测分析中应用的研究
    下载Doc文档

    猜你喜欢