真核启动子识别算法研究

真核启动子识别算法研究

论文摘要

随着人类基因组计划的实施及基因草图的完成,生物科学与技术得到了迅猛发展,同时积累了大量的相关数据,并且这些数据的增长速度已经远远超出了人们的想象。面对如此海量的数据,如何能够找到我们所需的信息成为了一项重要而又艰巨的工作。启动子作为调控基因转录的重要调控元件,在构建基因转录调控网络方面起着尤为重要的作用,加之真核启动子与原核启动子相比有着更为复杂的结构,故此真核启动子识别已成为当前基因组研究工作中的热点及难点。目前在启动子识别方面已经提出了许多算法,但都普遍存在假阳性较高的问题。为了改进现有启动子识别算法存在的不足,进一步提高算法的启动子识别性能,本文将Z曲线理论及启动子的结构特征应用到启动子预测的研究中来,提出了基于结构特征及Z曲线特征的真核启动子识别算法。所选取的6类结构特征能够较好地描述基因序列的空间形态,所选取的Z曲线特征能够从序列的全局角度描述序列中碱基及强氢键、弱氢键的分布情况,从而达到了从基因序列局部弯曲度及序列的双链的稳定性的角度来区分启动子序列与非启动子序列。首先提取训练集数据中的启动子及非启动子的结构特征、Z曲线特征;然后基于马氏距离构建结构特征分类器,基于Fisher准则构建Z曲线特征分类器。每个分类器由三个分类子模块组成,即启动子-外显子、启动子-内含子、启动子-3’UTR子分类模块,各分类子模块根据所属分类器的特征进行启动子预测;最后分类器将子分类模块的分类结果传递给综合评分模块进行综合评分并做出最终的判定。为了评价本文算法的预测能力,对登录号为L44140、D87675、AF017257、AFl46793、AC002368、AC002397的长基因进行了测试,测试结果为:敏感性71.92%,特异性55.56%,准确性63.47%。实验结果表明,本文算法具有更好的启动子识别性能。

论文目录

  • 摘要
  • Abstract
  • 引言
  • 1 绪论
  • 1.1 生物信息学简介
  • 1.1.1 生物信息学概述
  • 1.1.2 生物信息学的主要研究内容
  • 1.2 论文背景及意义
  • 1.3 真核启动子识别的国内外研究现状
  • 1.4 论文的主要工作与结构安排
  • 2 生物学背景知识
  • 2.1 核酸
  • 2.2 DNA 的结构
  • 2.3 基因
  • 2.4 基因的结构
  • 2.4.1 原核基因
  • 2.4.2 真核基因
  • 2.5 启动子的结构和功能
  • 3 生物信息数据库
  • 3.1 生物信息数据库及数据格式
  • 3.1.1 生物信息学数据库
  • 3.1.2 GenBank 数据库及其数据格式
  • 3.1.3 FASTA 数据格式
  • 3.2 启动子数据库
  • 4 基于结构及Z 曲线特征的真核启动子识别算法
  • 4.1 启动子特征及特征提取
  • 4.1.1 启动子结构特征及特征提取
  • 4.1.2 启动子Z 曲线特征及特征提取
  • 4.2 分类器设计
  • 4.2.1 系统总体结构
  • 4.2.2 特征向量创建
  • 4.2.3 启动子结构特征分类器
  • 4.2.4 启动子Z 曲线特征分类器
  • 4.2.5 综合评分及启动子区域的确定
  • 4.3 实验结果及性能分析
  • 4.3.1 实验数据的获取
  • 4.3.2 性能指标
  • 4.3.3 实验结果及分析
  • 4.4 本章小结
  • 5 结论
  • 5.1 研究工作总结
  • 5.2 未来工作展望
  • 参考文献
  • 附录A GenBank 序列格式、不同字段包括的内容及含义
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].植物人工启动子的研究进展[J]. 分子植物育种 2019(22)
    • [2].启动子的类型及应用[J]. 山西农业科学 2017(01)
    • [3].哺乳动物可变启动子的功能及其与疾病的关系[J]. 上海交通大学学报(医学版) 2017(04)
    • [4].谷氨酸棒状杆菌新型诱导启动子的研究[J]. 海南师范大学学报(自然科学版) 2016(02)
    • [5].植物启动子研究进展[J]. 生物技术通报 2015(02)
    • [6].植物启动子研究进展[J]. 北方园艺 2015(22)
    • [7].通过串联启动子实现纳豆激酶在枯草芽孢杆菌中的高效表达[J]. 现代食品科技 2016(11)
    • [8].植物受病原物诱导启动子概述[J]. 植物保护学报 2014(02)
    • [9].串联双病原物诱导启动子驱动基因表达的特性[J]. 植物病理学报 2013(04)
    • [10].双启动子对增强型绿色荧光蛋白表达的影响[J]. 中国生物制品学杂志 2009(10)
    • [11].粗糙集理论在启动子识别中的应用研究[J]. 计算机与数字工程 2008(04)
    • [12].信号转导与转录激活子1对高迁移率族蛋白1启动子转录的调控作用[J]. 广州医科大学学报 2020(02)
    • [13].植物基因工程中人工启动子的研究进展[J]. 植物生理学报 2011(02)
    • [14].一个硫化叶菌病毒启动子的分离与鉴定[J]. 应用与环境生物学报 2019(02)
    • [15].大豆组织特异启动子的克隆与功能分析[J]. 中国油料作物学报 2017(06)
    • [16].高等植物启动子研究概述[J]. 分子植物育种 2018(05)
    • [17].耐盐小麦中TaSC基因启动子的克隆及调控功能分析[J]. 作物学报 2018(04)
    • [18].启动子结构、功能预测和验证方法的研究进展[J]. 分子植物育种 2018(12)
    • [19].大肠杆菌染色体上严谨型启动子的构建[J]. 微生物学通报 2018(08)
    • [20].植物逆境相关启动子及功能[J]. 遗传 2010(03)
    • [21].启动子的潜在语义索引差异识别算法[J]. 烟台大学学报(自然科学与工程版) 2010(03)
    • [22].山羊角蛋白14基因启动子分析及其多态性研究[J]. 中国畜牧兽医 2012(08)
    • [23].细菌启动子识别及应用研究进展[J]. 生物工程学报 2010(10)
    • [24].报告基因法比较两种放线菌启动子的活性[J]. 微生物学报 2009(11)
    • [25].筛选脱氮假单胞菌启动子提高维生素B_(12)产量[J]. 生物技术通报 2017(08)
    • [26].启动子替代构建克雷伯氏菌普鲁兰酶高产菌株[J]. 食品与发酵工业 2015(10)
    • [27].枯草芽孢杆菌表达系统及其启动子研究进展[J]. 生物技术通报 2015(02)
    • [28].植物人工启动子研究进展[J]. 广东农业科学 2014(06)
    • [29].基于一致序列多样性分析的启动子预测方法[J]. 生物信息学 2012(03)
    • [30].IL-10启动子-592基因多态性与肠易激综合征的关系[J]. 现代医院 2010(09)

    标签:;  ;  ;  ;  ;  

    真核启动子识别算法研究
    下载Doc文档

    猜你喜欢