论文摘要
现有研究表明,基因组中存在大量的非编码RNA(ncRNA),在基因表达调控等方面发挥重要作用。如何利用生物信息学手段发现ncRNA,从而为用实验手段发现ncRNA提供帮助已成为生物信息学的研究热点之一。为此,本研究以酵母基因组为研究对象,以k-tuple组成为特征变量,运用机器学习方法系统研究了酵母基因组中ncRNA的预测问题。首先,构建用于机器学习的训练集与测试集,利用90条位于基因间区中的ncRNA作为阳性数据集,并提取出其上游和下游各1000nt的序列。为了构建阴性数据集,从酵母基因组中提取了功能注释比较清晰的4058个蛋白编码基因,为了保持阳性与阴性数据集中序列数目的平衡,我们以成熟mRNA蛋白编码区的3-tuple含量与上游和下游1000nt序列的4-tuple含量为特征进行聚类去冗余,将获得的90个代表样本点作为阴性数据集。最终从阳性和阴性数据中各随机抽取出80个序列作为训练集,余下的序列作为测试集。其次,利用Na(?)ve Bayes和SVM方法构建分类器,结果如下:1、以ncRNA序列和蛋白编码基因编码区的3-tuple含量为特征构建分类器,基于Na(?)ve Bayes方法的训练集精度为85%,测试集精度为90%;基于SVM方法的训练集精度为98.75%,测试集精度为90%。2、利用ncRNA和蛋白编码基因起始密码子上游4-tuple含量构建分类器,基于Na(?)ve Bayes方法的训练集精度为93.73%,测试集精度为75%;基于SVM方法的训练集精度为100%,测试集精度为90%。3、利用ncRNA和蛋白编码基因终止密码子下游4-tuple含量构建分类器,基于Na(?)ve Bayes方法的训练集精度为93.75%,测试集精度为85%;基于SVM方法的训练集精度为100%,测试集精度为90%。最后,鉴于SVM方法给出的测试集分类精度要高于Na(?)ve Bayes方法给出的分类精度,我们利用SVM方法构建的分类器在酵母基因间区中进行扫描,最终得到7469条预测的ncRNA序列,其中包含了已知的76条ncRNA,占基因间区的酵母ncRNA的84.4%(76/90),为酵母基因组中ncRNA的实验发现提供了生物信息学支持,也为其它物种基因组中的ncRNA发现提供了方法学参考。
论文目录
相关论文文献
- [1].不同细胞器基因组转录的ncRNA的序列特征分析和识别[J]. 内蒙古大学学报(自然科学版) 2015(05)
- [2].一种基于模糊神经网络的ncRNA基因预测方法[J]. 东南大学学报(自然科学版) 2009(S1)
- [3].基于支持向量机的人类ncRNA基因预测[J]. 青岛科技大学学报(自然科学版) 2017(02)
- [4].ncRNA伴侣分子hfq基因缺失对单核细胞增生李斯特菌环境适应能力的影响[J]. 应用与环境生物学报 2015(06)
- [5].食管癌相关功能未知基因的电子克隆延伸与ncRNA的发现[J]. 癌变.畸变.突变 2008(02)
- [6].非编码RNA(ncRNA)在前列腺癌发生发展中的作用机制[J]. 中国科学:生命科学 2016(04)
- [7].ncRNA层面病毒入侵宿主机制的研究[J]. 哈尔滨医科大学学报 2016(06)
- [8].利用不同G+C含量细菌基因组评估细菌ncRNA基因预测工具[J]. 微生物学通报 2014(12)
- [9].长片段非编码RNA及其功能研究进展[J]. 安徽农业科学 2010(13)
- [10].非编码RNA与RNA组学研究现状及发展态势[J]. 生物化学与生物物理进展 2010(10)
- [11].生物信息学预测lncRNA DLEU1的功能及其在膀胱癌中调控ncRNA代谢途径的作用[J]. 生命科学研究 2018(06)
- [12].RNA依赖的RNA聚合酶(RdRP)与非编码RNA(ncRNA)调控的研究进展[J]. 复旦学报(医学版) 2015(02)
- [13].非编码RNA的Z曲线研究[J]. 生物物理学报 2009(S1)
- [14].非编码RNA的研究进展[J]. 饲料博览 2012(07)
- [15].长链非编码RNA的生物学功能和研究方法[J]. 中国生物工程杂志 2015(09)
- [16].长链非编码RNA与动物的基因表达调控[J]. 畜牧兽医学报 2015(04)
- [17].非编码RNA在调控外源化学物致肾损伤中的作用[J]. 生命科学 2016(07)
- [18].非编码RNA的研究进展[J]. 中国农学通报 2009(13)
- [19].非编码RNA与染色体变化[J]. 科技信息 2012(14)
- [20].胚胎母源-合子转换期中的表观遗传调控[J]. 中国畜牧杂志 2020(03)