基于机器学习的酵母ncRNA预测研究

基于机器学习的酵母ncRNA预测研究

论文摘要

现有研究表明,基因组中存在大量的非编码RNA(ncRNA),在基因表达调控等方面发挥重要作用。如何利用生物信息学手段发现ncRNA,从而为用实验手段发现ncRNA提供帮助已成为生物信息学的研究热点之一。为此,本研究以酵母基因组为研究对象,以k-tuple组成为特征变量,运用机器学习方法系统研究了酵母基因组中ncRNA的预测问题。首先,构建用于机器学习的训练集与测试集,利用90条位于基因间区中的ncRNA作为阳性数据集,并提取出其上游和下游各1000nt的序列。为了构建阴性数据集,从酵母基因组中提取了功能注释比较清晰的4058个蛋白编码基因,为了保持阳性与阴性数据集中序列数目的平衡,我们以成熟mRNA蛋白编码区的3-tuple含量与上游和下游1000nt序列的4-tuple含量为特征进行聚类去冗余,将获得的90个代表样本点作为阴性数据集。最终从阳性和阴性数据中各随机抽取出80个序列作为训练集,余下的序列作为测试集。其次,利用Na(?)ve Bayes和SVM方法构建分类器,结果如下:1、以ncRNA序列和蛋白编码基因编码区的3-tuple含量为特征构建分类器,基于Na(?)ve Bayes方法的训练集精度为85%,测试集精度为90%;基于SVM方法的训练集精度为98.75%,测试集精度为90%。2、利用ncRNA和蛋白编码基因起始密码子上游4-tuple含量构建分类器,基于Na(?)ve Bayes方法的训练集精度为93.73%,测试集精度为75%;基于SVM方法的训练集精度为100%,测试集精度为90%。3、利用ncRNA和蛋白编码基因终止密码子下游4-tuple含量构建分类器,基于Na(?)ve Bayes方法的训练集精度为93.75%,测试集精度为85%;基于SVM方法的训练集精度为100%,测试集精度为90%。最后,鉴于SVM方法给出的测试集分类精度要高于Na(?)ve Bayes方法给出的分类精度,我们利用SVM方法构建的分类器在酵母基因间区中进行扫描,最终得到7469条预测的ncRNA序列,其中包含了已知的76条ncRNA,占基因间区的酵母ncRNA的84.4%(76/90),为酵母基因组中ncRNA的实验发现提供了生物信息学支持,也为其它物种基因组中的ncRNA发现提供了方法学参考。

论文目录

  • 目录
  • 中文摘要
  • 英文摘要
  • 英文缩略语词表
  • 引言
  • 第一部分 数据来源及特征提取
  • 1.数据来源
  • 2.特征提取
  • 3.数据集的选取
  • 第二部分 分类器的构建
  • 1.Na(?)ve Bayes方法构建分类器
  • 自身序列
  • 上游序列
  • 下游序列
  • 2.SVM方法构建分类器
  • 自身序列
  • 上游序列
  • 下游序列
  • 3.特征分析
  • t-检验分析
  • 贡献值分析
  • 第三部分 ncRNA的全基因组预测
  • 1.方法
  • 2.结果
  • 第四部分 讨论
  • 第五部分 总结
  • 参考文献
  • 致谢
  • 发表论文
  • 附录
  • 硕士期间投出文章
  • 硕士期间获得的奖励
  • 相关论文文献

    • [1].不同细胞器基因组转录的ncRNA的序列特征分析和识别[J]. 内蒙古大学学报(自然科学版) 2015(05)
    • [2].一种基于模糊神经网络的ncRNA基因预测方法[J]. 东南大学学报(自然科学版) 2009(S1)
    • [3].基于支持向量机的人类ncRNA基因预测[J]. 青岛科技大学学报(自然科学版) 2017(02)
    • [4].ncRNA伴侣分子hfq基因缺失对单核细胞增生李斯特菌环境适应能力的影响[J]. 应用与环境生物学报 2015(06)
    • [5].食管癌相关功能未知基因的电子克隆延伸与ncRNA的发现[J]. 癌变.畸变.突变 2008(02)
    • [6].非编码RNA(ncRNA)在前列腺癌发生发展中的作用机制[J]. 中国科学:生命科学 2016(04)
    • [7].ncRNA层面病毒入侵宿主机制的研究[J]. 哈尔滨医科大学学报 2016(06)
    • [8].利用不同G+C含量细菌基因组评估细菌ncRNA基因预测工具[J]. 微生物学通报 2014(12)
    • [9].长片段非编码RNA及其功能研究进展[J]. 安徽农业科学 2010(13)
    • [10].非编码RNA与RNA组学研究现状及发展态势[J]. 生物化学与生物物理进展 2010(10)
    • [11].生物信息学预测lncRNA DLEU1的功能及其在膀胱癌中调控ncRNA代谢途径的作用[J]. 生命科学研究 2018(06)
    • [12].RNA依赖的RNA聚合酶(RdRP)与非编码RNA(ncRNA)调控的研究进展[J]. 复旦学报(医学版) 2015(02)
    • [13].非编码RNA的Z曲线研究[J]. 生物物理学报 2009(S1)
    • [14].非编码RNA的研究进展[J]. 饲料博览 2012(07)
    • [15].长链非编码RNA的生物学功能和研究方法[J]. 中国生物工程杂志 2015(09)
    • [16].长链非编码RNA与动物的基因表达调控[J]. 畜牧兽医学报 2015(04)
    • [17].非编码RNA在调控外源化学物致肾损伤中的作用[J]. 生命科学 2016(07)
    • [18].非编码RNA的研究进展[J]. 中国农学通报 2009(13)
    • [19].非编码RNA与染色体变化[J]. 科技信息 2012(14)
    • [20].胚胎母源-合子转换期中的表观遗传调控[J]. 中国畜牧杂志 2020(03)

    标签:;  ;  ;  

    基于机器学习的酵母ncRNA预测研究
    下载Doc文档

    猜你喜欢