选择性剪接识别相关问题研究

选择性剪接识别相关问题研究

论文摘要

RNA的选择性剪接是在高等真核生物基因中普遍存在的一种生命现象,它在真核基因表达调控中起着十分重要的作用。有关选择性剪接的研究是功能基因组时代的重要前沿问题之一。本论文主要围绕选择性剪接事件的识别这一重要问题展开研究,主要包括下面三部分内容:首先,我们将隐马氏模型(HMM)方法用于剪接位点的识别中,很好地解决了基因预测过程中剪接位点定位不准确的问题。与已有的预测方法的比较表明,我们的方法在真实剪接位点近邻范围内的识别性能要优于现有方法。进一步,我们将该方法用于选择性剪接位点的识别,结果表明选择性剪接位点与组成性剪接位点在位点附近序列的统计特征上并没有本质的区别,这两类位点序列之间的差异随着位点剪接水平的变化而以一种渐变的方式体现出来。这一结果表明,选择性剪接位点的识别不应只考虑其位点自身的特征,还应考虑其它调控因素的影响。其次,我们将支持向量机(SVM)方法应用于选择性剪接事件的识别。我们从选择性剪接的生物机理出发,研究了选择性剪接位点之间的竞争机制,并将这一机制引入到识别选择性剪接位点的研究中,较好的解决了基于基因组序列识别选择性剪接位点的问题。和已有方法的比较表明,我们的方法比单纯依靠位点自身特征的识别方法的识别性能有很大提高。同时,所得结果还可以为相关生物实验的设计及进一步研究选择性剪接的生物机理提供线索。此外,我们还通过分析内含子保留事件中保留的内含子的序列特征,提出了基于序列识别这类内含子的方法,也取得了较好的结果。这些结果表明,对选择性剪接事件的生物机理的认识可以帮助我们提取出有效的识别分类特征。最后,根据以上结果,并结合其它生物序列识别问题的研究成果,我们为开展生物序列的识别研究提供了一个思路,即从待研究的问题的生物机理出发进行特征提取。解决模式识别问题的关键就在于从待识别的问题自身出发寻找能够反映类别信息本质的特征,对于我们所进行的生物信息学的研究而言,待研究问题的生物背景、生物机理即是这个出发点。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 引言
  • 1.1 研究课题的背景和意义
  • 1.2 RNA 的剪接和选择性剪接
  • 1.2.1 RNA 的剪接
  • 1.2.2 RNA 的选择性剪接
  • 1.3 选择性剪接识别的研究现状
  • 1.3.1 选择性剪接的实验研究
  • 1.3.2 全基因组范围的选择性剪接分析
  • 1.3.3 基于机器学习方法的选择性剪接识别研究
  • 1.4 论文各部分的主要内容
  • 第2章 剪接位点的识别与位点强度的渐变性研究
  • 2.1 引言
  • 2.2 剪接位点的识别
  • 2.2.1 数据集
  • 2.2.2 基于隐马氏模型的剪接位点识别算法
  • 2.2.3 剪接位点保守性分析与位点序列长度的选择
  • 2.2.3.1 剪接位点附近的碱基出现概率
  • 2.2.3.2 剪接位点序列的信息熵
  • 2.2.3.3 剪接位点序列各位置之间的互信息
  • 2.2.3.4 位点序列长度的选取
  • 2.2.4 实验结果
  • 2.2.4.1 利用HMM 方法预测剪接位点的结果
  • 2.2.4.2 序列长度的选择对预测结果的影响
  • 2.2.4.3 模型选择对预测结果的影响
  • 2.2.5 与其它算法在基因预测中的作用的比较
  • 2.3 选择性剪接位点识别的初步研究
  • 2.3.1 数据集及方法
  • 2.3.2 实验结果
  • 2.4 选择性剪接位点序列的渐变性研究
  • 2.4.1 剪接位点的剪接水平(SPLICING LEVEL)
  • 2.4.2 选择性剪接位点序列保守性的渐变性
  • 2.4.3 剪接位点序列保守性与剪接机制的联系
  • 2.4.4 小结
  • 2.5 本章小结
  • 第3章 基于序列特征和剪接机制的选择性剪接识别
  • 3.1 引言
  • 3.2 支持向量机
  • 3.3 基于竞争机制的选择性剪接位点识别
  • 3.3.1 识别算法的基本思路
  • 3.3.2 数据集
  • 3.3.3 特征选择
  • 3.3.4 性能评估
  • 3.3.5 实验结果
  • 3.3.5.1 基于SVM 的竞争位点组合和非竞争位点组合的识别
  • 3.3.5.2 选择性剪接位点的识别
  • 3.3.5.3 搜索潜在剪接位点的范围(M)对结果的影响
  • 3.3.6 与其它方法的比较
  • 3.3.6.1 与选择性剪接位点预测方法的比较
  • 3.3.6.2 与其它不基于EST 的预测方法的比较
  • 3.3.7 预测剪接位点附近序列中的突变对剪接性质的影响
  • 3.3.8 小结
  • 3.4 基于序列特征识别RETAINED INTRON
  • 3.4.1 数据集
  • 3.4.2 特征选择
  • 3.4.2.1 序列长度的分布
  • 3.4.2.2 GC 含量的分布
  • 3.4.2.3 对蛋白质翻译的影响
  • 3.4.2.4 富嘧啶相关区域的嘧啶浓度
  • 3.4.2.5 RETAINED INTRON 识别的特征向量
  • 3.4.3 方法及性能评估
  • 3.4.4 实验结果
  • 3.4.4.1 SVM 分类器的核函数和参数选择
  • 3.4.4.2 SVM 分类器的预测结果
  • 3.4.5 算法比较
  • 3.4.5.1 不同机器学习方法的比较
  • 3.4.5.2 现有方法的总结
  • 3.4.6 小结
  • 3.5 本章小结
  • 第4章 从生物机理出发进行生物序列的识别
  • 4.1 生物序列识别过程中的特征提取
  • 4.2 回环长度对G 蛋白偶联受体家族分类的影响
  • 4.3 MIRNA 在其前体二级结构上的分布对MIRNA 识别的影响
  • 4.3.1 MIRNA 的产生机制
  • 4.3.2 MIRNA 在其前体二级结构上的分布特征
  • 4.3.2.1 数据集
  • 4.3.2.2 PRE-MIRNA 的二级结构特征
  • 4.3.2.3 MIRNA 在其前体二级结构上的分布
  • 4.3.3 分布特征对应的热力学性质
  • 4.3.4 结构分布特征对MIRNA 预测的贡献
  • 4.4 本章小结
  • 第5章 结论和展望
  • 参考文献
  • 致谢
  • 个人简历、在学期间发表的学术论文与研究成果
  • 相关论文文献

    • [1].转换蛋白2及其调节和生理病理作用[J]. 国际口腔医学杂志 2016(03)

    标签:;  ;  ;  ;  ;  

    选择性剪接识别相关问题研究
    下载Doc文档

    猜你喜欢