基于机器学习的microRNA基因预测

基于机器学习的microRNA基因预测

论文摘要

microRNA是一种单链的非编码小分子RNA,长约20-24个核苷酸,它由长度约为70个核苷酸的microRNA前体(pre-microRNA)经过具有RNaseIII活性的Dicer和Dicer-like-1内切核酸酶加工形成,microRNA通过诱导靶mRNA剪切或者抑制其翻译来调控基因表达的功能。人类有近三分之一的基因都受到microRNA的调控,它对生物的细胞增殖分化、细胞死亡、早期发育、代谢活动等生物过程有着重要的调控作用,研究表明,它与癌症也有着紧密的联系,对microRNA的研究有助于人们了解基因间的网络调控关系,更有助于对基因功能的研究以及生物的进化探索。虽然microRNA广泛存在于55个物种之中,目前被鉴定出来的microRNA数量比实际存在的要少的多,还有大量的microRNA有待发现。因此对microRNA的进行预测具有重要的意义。目前已知的microRNA预测主要有两种方式,cDNA克隆预测和计算预测。前者是microRNA早期主要的预测方式,这种方式直接、可靠,但是很难克隆出在不同时期表达,或者只在特定的组织或细胞系中表达的microRNA。计算预测则不会受到microRNA在表达时间、表达水平或组织特异性的影响,从而可以弥补cDNA克隆测序的不足。本文基于机器学习提出了一种称为ACO+SVM的microRNA预测方法,由于pre-microRNA的序列较长,并且可以折叠形成stem-loop结构,将pre-microRNA序列和结构特征结合起来提取相应属性信息。本文通过已知的阳性和阴性pre-microRNA构建区分二者的分类器,由于支持向量机(Support Vector Machines,SVM)在逼近和泛化能力方面具有良好的特性,因此本文microRNA的预测方法采用SVM训练分类器,考虑到SVM分类器的性能受核函数和相关参数的影响很大,采用蚁群算法(Ant Colony Optimization,ACO)搜索SVM的相关参数,以构建无偏、且同时具有较高敏感性和特异性的分类器。实验结果表明该方法不仅可以有效的鉴别人类真假pre-microRNA,而且在其他多个物种的预测上具有较高的准确度,与其他同类方法相比具有更好的敏感性和特异性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • §1-1 研究背景
  • §1-2 课题研究的意义
  • §1-3 国内外研究现状
  • §1-4 本文主要工作
  • 第二章 microRNA 相关知识简介
  • §2-1 microRNA 简介
  • 2-1-1 microRNA 的产生
  • 2-1-2 microRNA 的特征
  • 2-1-3 microRNA 的作用机制
  • 2-1-4 microRNA 的功能
  • §2-2 microRNA 相关数据库
  • §2-3 microRNA 的预测方法
  • 2-3-1 microRNA 的克隆预测
  • 2-3-2 microRNA 的生物信息学预测
  • §2-4 本章小结
  • 第三章 机器学习与相关算法理论
  • §3-1 机器学习
  • §3-2 支持向量机算法
  • 3-2-1 支持向量机基础理论
  • 3-2-2 支持向量机原理
  • 3-2-3 支持向量机与神经网路的对比
  • 3-2-4 支持向量机核函数
  • §3-3 蚁群算法
  • 3-3-1 蚁群算法基本原理
  • 3-3-2 蚁群算法特性
  • §3-4 本章小结
  • 第四章 基于蚁群和支持向量机的microRNA 预测方法
  • §4-1 实验数据
  • §4-2 特征提取
  • 4-2-1 序列结构特征提取
  • 4-2-2 编码特征提取
  • §4-3 训练过程
  • §4-4 结果与分析
  • 4-4-1 预测效果的评估
  • 4-4-2 人类测试集结果分析
  • 4-4-3 其他物种测试集结果分析
  • 4-4-4 ACO+SVM 方法与其他方法比较分析
  • §4-5 本章小结
  • 第五章 总体结论与展望
  • §5-1 总体结论
  • §5-2 展望
  • 参考文献
  • 致谢
  • 攻读学位期间所取得的相关科研成果
  • 相关论文文献

    标签:;  ;  ;  

    基于机器学习的microRNA基因预测
    下载Doc文档

    猜你喜欢