支持向量机及密码子偏性在序列识别中的应用

支持向量机及密码子偏性在序列识别中的应用

论文摘要

随着人类基因组计划和模式生物基因组计划的完成,公共数据库中生物数据的增长速度越来越快。如何从海量的生物数据中解读、提取和获得有用的生物信息,已成为基因组计划下一步亟待解决的问题。本课题的主旨是尝试利用机器学习的方法并结合某些核酸或者蛋白的序列特征来解决一些生物信息学中的问题。具体研究可以分为二个部分:基因同义密码子使用偏性进行的分析;以密码子使用偏性作为序列特征,利用支持向量机来对生物序列进行的识别。在第一部分中,我们对A型流感病毒、衣原体以及酵母的密码子使用模式进行了分析,并且对导致这些物种采用各自密码子使用模式的内在因素进行了探讨。基因组的碱基组成和基因翻译选择的压力被认为是决定物种基因密码子使用的最主要的两种因素。但是,在我们所分析的生物中,这些内在因素并不尽相同。除了上述的两种主要因素,我们发现DNA复制过程中引起的链间的碱基差异、基因所编码蛋白的亲疏水性、基因的功能类型和基因所处区域的减数分裂重组率等都是能影响基因的同义密码子使用偏性的因素。这些探讨性的研究对于理解物种的进化以及指导基因的体外表达都有着重要作用。我们还发现在基因的不同区段里,其密码子使用偏性也有区别。为此,我们定义了相关的统计量:密码子区段使用偏性。通过对酵母和冠状病毒基因的计算分析,我们发现在mRNA编码起始端附近区域的密码子使用偏性与整条序列的偏性存在着差别:稀有密码子相对于其它区段来说,更倾向于出现在编码区的起始位点附近,这可以用“弱势密码子调节假说”来解释。另外,我们也观察到,在冠状病毒基因编码终止端附近,弱势密码子出现的频率也相对较高,我们推测,这也许与基因的表达调控有关。在论文的第二部分中,我们利用支持向量机,结合基因的同义密码子使用偏性,对生物信息学中的一些热点问题进行了研究:我们首次利用核酸序列的信息对G蛋白偶联受体分子的类型进行识别(前人主要利用的是氨基酸序列信息),并取得了很好的预测效果;我们独创性地对酵母基因组减数分裂重组冷热点区的ORF序列进行了分类,结果表明密码子使用偏性是很好的区分重组冷热点的统计量,我们还发现重组冷热点区ORF所编码的蛋白序列存在氨基酸组成上的差异;我们考察了使用支持向量机与密码子使用偏性对细菌基因组水平转移基因进行识别的能力,我们提出,在对细菌基因组的水平转移基因进行识别时,要将受体基因组前导链和滞后链上的基因区别对待,这样在对水平转移基因的预测时会取得更好的结果。另外,我们利用支持向量机技术,使用双联核苷酸使用频率作为序列特征,对干扰RNA的降解效率进行识别,我们取得的预测效果超过通常基于序列特征的打分算法。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 人类基因组计划
  • 1.1.1 HGP 产生的背景
  • 1.1.2 HGP 的任务
  • 1.1.3 HGP 的研究进展
  • 1.2 生物信息学
  • 1.2.1 飞速增长的生物信息
  • 1.2.2 生物信息学的产生背景
  • 1.2.3 生物信息学的概念
  • 1.2.4 生物信息学的主要研究内容
  • 1.2.5 生物信息学的研究意义
  • 1.3 关于本课题
  • 1.4 基因同义密码子的使用
  • 1.4.1 中心法则与遗传密码
  • 1.4.2 密码子的特性
  • 1.4.3 同义密码子使用偏性
  • 1.4.4 密码子使用偏性相关的数学量
  • 1.4.5 密码子使用偏性计算分析系统
  • 1.5 支持向量机
  • 1.5.1 机器学习理论
  • 1.5.2 支持向量分类机
  • 1.5.3 One-class 支持向量机
  • 1.5.4 支持向量机计算平台
  • 第二章 影响基因密码子使用偏性的各种因素
  • 2.1 基因密码子使用偏性的生物学基础
  • 2.2 研究影响基因密码子使用偏性的因素有何生物学意义
  • 2.3 同义密码子使用偏性的统计分析方法
  • 2.4 H5N1 及其它A 型流感病毒密码子使用偏性分析
  • 2.4.1 数据
  • 2.4.2 H5N1 型病毒密码子使用偏性模式
  • 2.4.3 不同病毒基因组中的同义密码子使用模式
  • 2.4.4 结论
  • 2.5 衣原体密码子使用偏性分析
  • 2.5.1 数据
  • 2.5.2 基因组碱基组成对密码子使用模式的影响
  • 2.5.3 基因复制时的方向与密码子使用偏性的关系
  • 2.5.4 基因的表达水平与密码子使用偏性的关系
  • 2.5.5 其它可能影响密码子使用偏性的因素
  • 2.5.6 讨论
  • 2.6 酵母减数分裂重组冷热点密码子使用偏性分析
  • 2.6.1 数据
  • 2.6.2 结果与讨论
  • 2.6.3 结论
  • 2.7 本章总结
  • 第三章 基因区段密码子使用偏性分析
  • 3.1 密码子区段使用偏性相关的数学量
  • 3.2 密码子区段使用偏性的研究意义
  • 3.3 酵母基因区段密码子使用偏性分析
  • 3.3.1 数据
  • 3.3.2 编码起始区附近密码子使用偏性分析
  • 3.3.3 编码终止区附近密码子使用偏性分析
  • 3.4 冠状病毒基因区段密码子使用偏性分析
  • 3.4.1 数据
  • 3.4.2 编码起始区附近密码子使用偏性分析
  • 3.4.3 编码终止区附近密码子使用偏性分析
  • 3.5 本章总结
  • 第四章 G 蛋白偶联受体蛋白类型预测
  • 4.1 研究背景
  • 4.1.1 G 蛋白与G 蛋白偶联受体
  • 4.1.2 G 蛋白偶联受体类型
  • 4.1.3 G 蛋白偶联受体类型预测的研究现状
  • 4.2 数据及方法
  • 4.2.1 GPCR 数据来源
  • 4.2.2 序列特征的提取
  • 4.2.3 实验流程
  • 4.2.4 分类器性能的衡量标准
  • 4.3 实验结果
  • 4.3.1 GPCR 序列的识别
  • 4.3.2 GPCR 分类预测
  • 4.4 讨论
  • 第五章 酵母基因组减数分裂重组冷热点分类
  • 5.1 研究背景
  • 5.1.1 减数分裂重组
  • 5.1.2 研究现状
  • 5.2 数据及方法
  • 5.2.1 数据
  • 5.2.2 序列特征的提取
  • 5.3 实验结果与讨论
  • 5.3.1 不同序列特征的预测准确率比较
  • 5.3.2 氨基酸组成对分类的影响
  • 5.3.3 密码子使用偏性对分类的影响
  • 第六章 细菌基因组水平转移基因预测
  • 6.1 研究背景
  • 6.1.1 基因的水平转移
  • 6.1.2 基因水平转移的特点
  • 6.1.3 水平转移基因预测的研究现状
  • 6.2 数据及方法
  • 6.2.1 人工模拟的细菌基因组基因水平转移事件
  • 6.2.2 序列特征提取
  • 6.2.3 算法性能的衡量标准
  • 6.3 实验结果
  • 6.3.1 利用支持向量机对水平转移基因的预测
  • 6.3.2 对水平转移基因的分链预测
  • 6.3.3 利用One-class 支持向量机对水平转移基因的预测
  • 6.3.4 利用One-class 支持向量机对水平转移基因的分链预测
  • 6.3.5 算法在粪肠球菌基因组中的实际检验
  • 6.4 讨论
  • 第七章 siRNA 降解效率预测
  • 7.1 研究背景
  • 7.1.1 RNA 干涉
  • 7.1.2 siRNA 降解效率预测的研究现状
  • 7.2 数据及方法
  • 7.2.1 实验数据
  • 7.2.2 序列特征提取
  • 7.2.3 实验方法
  • 7.2.4 算法性能的衡量标准
  • 7.3 实验结果及讨论
  • 第八章 总结和展望
  • 8.1 论文总结
  • 8.2 工作展望
  • 致谢
  • 参考文献
  • 附录A
  • 作者简介
  • 相关论文文献

    • [1].巨桉叶绿体基因组密码子偏好性分析[J]. 广西植物 2019(12)
    • [2].两种梧桐叶绿体基因组密码子使用偏性分析[J]. 广西植物 2020(02)
    • [3].密码子使用偏好性对生物钟基因表达模式及功能的影响[J]. 生物学教学 2020(03)
    • [4].基于转录组数据分析药用真菌猪苓密码子使用偏好性[J]. 药学学报 2020(05)
    • [5].马尾松转录组密码子使用偏好性及其影响因素[J]. 林业科学 2020(04)
    • [6].云南蓝果树叶绿体基因组密码子偏好性分析[J]. 西北林学院学报 2020(04)
    • [7].乳油木叶绿体基因组密码子偏好性分析[J]. 分子植物育种 2020(17)
    • [8].美国红梣叶绿体基因组密码子偏好性分析[J]. 江苏农业科学 2020(15)
    • [9].遗传密码子的起源——从能量转化到信息化[J]. 生物多样性 2017(01)
    • [10].寨卡病毒基因组密码子偏爱性分析[J]. 基因组学与应用生物学 2017(02)
    • [11].中东呼吸综合征冠状病毒结构蛋白与附属蛋白编码基因密码子偏爱性分析[J]. 病毒学报 2016(04)
    • [12].川贝母转录组密码子使用偏好性分析[J]. 中国中药杂志 2016(11)
    • [13].密码子偏性分析方法及茶树中密码子偏性研究进展[J]. 茶叶通讯 2016(02)
    • [14].大豆花叶病毒密码子使用及其进化分析[J]. 大豆科学 2014(06)
    • [15].埃博拉病毒包膜糖蛋白的密码子偏爱性分析[J]. 医学研究杂志 2015(03)
    • [16].高中生物教学中“一”的辨析[J]. 中学生物教学 2017(05)
    • [17].基因科学新发现:所有密码子都可能成为起始密码子[J]. 飞碟探索 2017(04)
    • [18].植物抗病基因密码子使用特性分析[J]. 山东农业大学学报(自然科学版) 2013(04)
    • [19].落叶松-杨栅锈菌基因组密码子使用偏好分析[J]. 菌物学报 2020(02)
    • [20].茶树密码子使用偏性分析方法及其研究进展[J]. 分子植物育种 2020(05)
    • [21].小球藻叶绿体基因组密码子偏好性分析[J]. 分子植物育种 2020(17)
    • [22].秋茄叶绿体基因组密码子使用偏好性分析[J]. 森林与环境学报 2020(05)
    • [23].茄腐镰孢(Fusarium solani)线粒体基因组密码子偏好性分析[J]. 基因组学与应用生物学 2015(11)
    • [24].长春花密码子使用偏好性分析[J]. 中国中药杂志 2016(22)
    • [25].密码子使用偏性量化方法研究综述[J]. 基因组学与应用生物学 2013(05)
    • [26].铁核桃叶绿体基因组密码子偏好性分析[J]. 分子植物育种 2020(20)
    • [27].红豆杉属基因的密码子偏性分析[J]. 湖北农业科学 2013(10)
    • [28].多杀性巴氏杆菌的遗传密码子偏好性初步分析[J]. 黑龙江畜牧兽医 2012(09)
    • [29].鸡七号染色体上的最优密码子[J]. 畜牧与饲料科学 2012(07)
    • [30].牛乳蛋白的遗传密码子使用频率分析[J]. 中国兽医学报 2011(02)

    标签:;  ;  ;  ;  ;  ;  ;  

    支持向量机及密码子偏性在序列识别中的应用
    下载Doc文档

    猜你喜欢