生物序列中功能元件识别与发现

生物序列中功能元件识别与发现

论文摘要

生物序列中的功能元件是能够控制基因的表达和调控过程的DNA片断,对它们的研究对于人们理解生物序列的含义具有巨大的意义。本文先对特定功能元件的识别进行了研究,然后将该问题推广到生物序列中的模式发现问题上,并对生物序列中的模式发现问题进行了一些有益的探索。生物序列中功能元件的识别与发现主要有两种方法。一种是有指导的识别方法,即利用已知的信息判读一段未知的序列中是否含有某种功能元件;另一种是无指导的学习方法,即利用一些相似性指标,通过搜索算法发现序列中可能蕴含的信号。大肠杆菌启动子能起始基因的转录,它主要由两段比较保守的序列片断-10框、-35框和它们之间一段长度可变的碱基序列组成。由于保守序列中的碱基是可变的,而且间隔碱基的长度也是可变,这给大肠杆菌启动子的计算机识别带来了难度。本文提出了一种基于多特征的大肠杆菌启动子判别算法,即通过词频分析获得序列的组成特征,利用位置权重矩阵(PWM)和隐马尔科夫模型(HMM)获得序列的结构特征,然后输入到一个分类器中进行分类。文中分别利用大肠杆菌编码区和非编码区的序列数据对算法进行了测试,结果表明,该方法的平均错误率显著低于其它方法。生物序列中的模式发现是生物信息学中一个极具挑战性的问题。本文通过研究能恢复出模式的序列片断之间的相似性关系,提出了能恢复出模式的序列片断与该模式之间应当满足的信号相容性条件(Signal compatible condition)。在此基础上,针对单一模式发现问题,文提出并实现了一种穷举搜索的模式发现算法——信号相容性算法(Signal compatible algorithm, SCA)。通过改进构造搜索图的方法,进而将该算法扩展应用到二元组合模式的发现中。通过仿真数据和生物数据的测试,该算法能确保发现序列中蕴含的所有模式,同时由于将信号相容性条件作为剪枝准则,该算法具有计算时间短,占用内存少的优点。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 引言
  • 1.1.1 生物信息学简介
  • 1.1.2 研究背景
  • 1.2 论文的主要工作
  • 1.3 论文的结构
  • 第二章 基因组和基因的表达与调控
  • 2.1 基因组和DNA
  • 2.1.1 核苷酸
  • 2.1.2 DNA 的结构
  • 2.2 基因的表达和调控
  • 2.2.1 转录
  • 2.2.2 调控
  • 2.3 小结
  • 第三章 数据库与大肠杆菌启动子的序列特征
  • 3.1 生物信息学中的数据库
  • 3.1.1 EMBL 和GenBank 数据库格式
  • 3.2 大肠杆菌启动子序列数据库
  • 3.3 序列数据集的选择
  • 3.4 大肠杆菌启动子的序列特征
  • 3.5 大肠杆菌启动子识别的研究现状
  • 3.5.1 隐马尔可夫模型在大肠杆菌启动子识别中的应用
  • 3.5.2 遗传算法在大肠杆菌启动子识别中的应用
  • 3.5.3 人工神经网络在大肠杆菌启动子识别中的应用
  • 3.5.4 其他方法在大肠杆菌启动子识别中的应用
  • 3.6 小结
  • 第四章 大肠杆菌启动子的识别
  • 4.1 大肠杆菌启动子序列的词频分析
  • 4.2 核心区域在启动子识别中的作用
  • 4.2.1 保守序列的序列概率模型
  • 4.2.2 HMM 的应用
  • 4.3 分类器的设计
  • 4.4 启动子的识别结果
  • 4.4.1 非编码区结果
  • 4.4.2 编码区结果
  • 4.4.3 与其他方法的比较
  • 4.5 小结
  • 第五章 DNA 序列中的模式发现
  • 5.1 模式发现问题概述
  • 5.1.1 单一模式发现问题介绍
  • 5.1.2 组合模式发现问题介绍
  • 5.2 模式发现的方法
  • 5.2.1 单一模式发现问题的描述
  • 5.2.2 模式发现到搜索图的构造
  • 5.2.3 信号相容性条件
  • 5.2.4 算法实现
  • 5.2.5 二元组合模式的发现
  • 5.3 算法测试
  • 5.3.1 仿真数据测试
  • 5.3.2 生物数据测试
  • 5.3.3 结果和讨论
  • 5.4 小结
  • 第六章 总结和展望
  • 6.1 全文总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].数学模型在生物序列结构比较中的研究及其应用[J]. 安阳师范学院学报 2017(02)
    • [2].基于正则表达式的生物序列检索方法[J]. 莆田学院学报 2009(05)
    • [3].基于密度感知模式的生物序列分类算法[J]. 计算机应用 2018(02)
    • [4].生物序列搜索算法hmmsearch的加速技术[J]. 计算机工程 2010(20)
    • [5].生物序列数据挖掘技术的若干研究论述[J]. 山东工业技术 2016(15)
    • [6].边际核函数在生物序列分类中的应用[J]. 计算机应用与软件 2008(05)
    • [7].在當前審查實踐下獲得生物序列的合理專利保護範圍之探討[J]. 中国专利与商标 2015(03)
    • [8].生物软件在序列分析过程中的运用[J]. 生物信息学 2010(04)
    • [9].生物序列分析(生物信息学数据分析丛书)[J]. 遗传 2010(10)
    • [10].生物序列数据挖掘技术研究[J]. 合肥工业大学学报(自然科学版) 2012(09)
    • [11].通式肽单一性审查研究初探[J]. 中国发明与专利 2015(12)
    • [12].用网络方法识别生物序列motif[J]. 生物信息学 2008(04)
    • [13].基于非支配排序遗传算法求解启动子识别问题[J]. 基因组学与应用生物学 2014(06)
    • [14].科学出版社生命科学分社新书推介 2010-08[J]. 中国生物化学与分子生物学报 2010(10)
    • [15].基于位置信息熵的局部敏感哈希聚类方法[J]. 计算机应用与软件 2018(03)
    • [16].一种新的生物序列模式挖掘算法[J]. 电脑知识与技术 2010(19)
    • [17].基于知识库的基因组数据整合分析[J]. 生物信息学 2011(04)
    • [18].基于打分矩阵的生物序列频繁模式挖掘[J]. 模式识别与人工智能 2016(10)
    • [19].生物序列数据K-mer频次统计问题的算法[J]. 计算机系统应用 2014(04)
    • [20].WIPO的ST.26与ST.25标准比较研究[J]. 中国发明与专利 2020(08)
    • [21].GPGPU加速生物序列比对研究进展[J]. 生物信息学 2013(02)
    • [22].基于相邻频繁模式段的闭合序列模式挖掘算法[J]. 计算机工程与应用 2008(11)
    • [23].基于OpenFlow网络数据处理模型的研究[J]. 计算机科学与探索 2015(11)
    • [24].生物序列的聚类分析[J]. 生物信息学 2009(01)
    • [25].使用GPU加速BLAST算法初探[J]. 计算机工程与科学 2009(11)
    • [26].融合信息量差异和聚类精炼的多Motif识别[J]. 小型微型计算机系统 2017(09)
    • [27].BioIndex:一种生物序列相似性查询的高效索引[J]. 计算机应用与软件 2009(10)
    • [28].GPU OpenFlow海量数据网络处理模型——GOMDI[J]. 计算机应用 2014(08)
    • [29].基于知识表达系统的序列比对研究[J]. 四川理工学院学报(自然科学版) 2008(06)
    • [30].生物序列模体发现的最优化模型[J]. 成都大学学报(自然科学版) 2008(01)

    标签:;  ;  ;  ;  ;  

    生物序列中功能元件识别与发现
    下载Doc文档

    猜你喜欢