生物序列数据比较与模体发现算法研究

生物序列数据比较与模体发现算法研究

论文摘要

生物信息学是将计算机领域内的知识和技术应用于研究DNA(脱氧核糖核酸)、蛋白质等生物学问题的一个迅速发展的学科领域,而生物序列比较和模式发现是生物信息学的传统课题,在系统进化、基因调控、疾病治疗、病毒起源等重要领域的研究中处于核心地位。 近年来,随着生物测序技术的突飞猛进,生物序列数据以前所未有的速度增长。人工分析和处理生物序列数据无法再满足需求,计算机和网络技术的飞速发展,为分析和处理生物序列提供了新的强大手段。本文围绕生物序列信息比较与模体(motif)发现算法问题展开研究,完成以下工作: (1) DNA序列模体发现算法研究 DNA序列是最常见的生物序列数据,在DNA序列集合中发现模体的常见方法有统计学习方法和组合优化方法。本文围绕目前最常用的FM(Fixed number of Mutation)模体发现模型展开研究,首先给出一种基于样本序列比较来组合生成候选模体的方法,然后在此基础上设计出一种新的基于样本驱动的精确算法,与现有的模式驱动算法相比,在保持精度不变的情况下降低了搜索空间,同时克服了样本驱动算法适用面窄的问题。实验表明,该算法相对目前最优的MITRA(Mismatched Tree Algorithms)精确算法的性能有了较大的提高。 (2) 纳米计算平台的生物序列处理研究 对生物序列进行比较和在生物序列中发现模体往往涉及大计算量,因此并行化的设计是必不可少的,但是问题本身的串行处理特性使得并行处理较为困难。目前已提出的一种新的纳米计算平台上的系统结构模型——Cell Matrix能较好的解决序列处理问题,其同构的二维结构便于生产和扩展,用该结构来实现序列处理算法非常自然。本文实现了可以输出比对结果的双序列比对算法,它克服了Cell Matrix模型上已有的双序列比对算法只能输出比对得分的缺陷;首次在Cell Matrix模型上设计实现了生物序列模体发现算法。并用品格数量和晶格延迟两个参数分析了两个算法的时空开销。 (3) 基因组序列的翻转排序并行算法研究 基因组序列在遗传过程中最常见变异现象为部分子序列翻转。通过对翻转排序问题串行算法的研究,在PRAM模型和LARPBS模型上分别设计出时间复杂度为O(lg~2n)和O(lgn)的并行计算有向符号序列翻转距离算法(n为序列的长度);同时在LARPBS模型上设计出一个线性时间并行翻转排序算法。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 1 绪论
  • 1.1 生物信息学
  • 1.1.1 概述
  • 1.1.2 简单分子生物学基础
  • 1.1.3 生物信息学的部分研究领域
  • 1.2 本文的研究内容
  • 1.2.1 生物序列模体发现
  • 1.2.2 基因组序列比较算法
  • 1.3 文献资源
  • 1.4 论文组织
  • 2 算法理论基础和并行计算模型
  • 2.1 算法复杂性的度量和算法分析的方法
  • 2.1.1 算法的概念和复杂性度量
  • 2.1.2 NP完全算法
  • 2.1.3 并行算法的概念和复杂性度量
  • 2.2 传统的并行计算模型
  • 2.2.1 PRAM模型——SM-SIMD模型
  • 2.2.2 分布存储SIMD模型——DM-SIMD模型
  • 2.2.3 异步PRAM模型——SM-MIMD模型
  • 2.2.4 BSP模型——DM-MIMD模型
  • 2.2.5 LogP模型——MPP模型
  • 2.3 其它新型计算模型
  • 2.3.1 Cell Matrix模型——纳米计算模型
  • 2.3.2 LARPBS模型——可重构光总线系统模型
  • 2.4 并行算法的基本设计技术
  • 2.5 本章小结
  • 3 DNA序列模体发现的组合算法
  • 3.1 模体发现问题
  • 3.1.1 DNA序列上模体发现生物背景
  • 3.1.2 DNA序列上模体发现问题基本定义
  • 3.2 基于序列比较和样本驱动的模体发现算法
  • 3.2.1 简单模式驱动和样本驱动算法
  • 3.2.2 基因组序列比较算法
  • 3.2.3 算法试验性能分析
  • 3.3 本章小结
  • 4 基于纳米计算模型的生物序列模体发现和生物序列比对算法
  • 4.1 Cell Matrix模型简介
  • 4.1.1 纳米计算机与Cell Matrix模型
  • 4.1.2 Cell Matrix模型上算法时空开销分析
  • 4.2 Cell Matrix模型上的双序列比对
  • 4.2.1 Cell Matrix上的计算双序列比对分值的算法
  • 4.2.2 改进的Cell Matrix上的双序列比对算法
  • 4.2.3 双序列比对实现的开销分析
  • 4.3 Cell Matrix模型上的序列模体发现算法
  • 4.3.1 模体发现问题模型和模式驱动算法
  • 4.3.2 Cell Matrix模型上的模式驱动算法
  • 4.3.3 Cell Matrix上的模式驱动算法复杂性分析
  • 4.4 本章小结
  • 5 PRAM和LARPBS模型上的有向符号排列翻转排序问题并行算法
  • 5.1 基因组重排问题
  • 5.1.1 基因组序列的数学表示与翻转排序问题的定义
  • 5.1.2 基因组序列翻转距离的计算
  • 5.2 基于PRAM模型并行计算有向符号排列翻转距离
  • 5.2.1 并行构建有向符号序列断点图
  • 5.2.2 求有向符号序列断点图中圈数的并行算法
  • 5.2.3 求排列中障碍数目和堡垒的并行算法
  • 2n)并行算法'>5.2.4 计算有向符号排列翻转距离的O(log2n)并行算法
  • 5.3 LARPBS系统上并行计算有向符号排列翻转距离
  • 5.3.1 LARPBS计算模型及其基本数据移动操作
  • 5.3.2 LARPBS模型上并行构建断点图
  • 5.3.3 LARPBS模型上并行计算有向序列断点图中圈数
  • 5.3.4 LARPBS模型上求障碍数目和堡垒的并行算法
  • 5.3.5 LARPBS模型上并行计算有向符号排列翻转距离算法总结
  • 5.4 LARPBS系统上的有向符号排列翻转排序并行算法
  • 5.4.1 有向符号排列翻转排序的基本策略
  • 5.4.2 LARPBS模型上有向排列翻转排序并行算法
  • 5.5 本章小结
  • 6 计算有向符号排列的翻转中值排列
  • 6.1 中值序列问题研究背景和基本定义
  • 6.1.1 基因组的距离和生物进化树
  • 6.1.2 重建进化树和三条基因组序列求中值
  • 6.1.3 三条基因组序列求中值问题定义
  • 6.2 基于翻转距离的三点中值问题简单算法
  • 6.2.1 有向符号序列的翻转图和求翻转中值简单算法
  • 6.2.2 三条有向序列翻转中值的性质和改进算法
  • 6.3 求三条有向序列翻转中值的分支限界算法
  • 6.3.1 求三条有向序列翻转中值的分支限界策略
  • 6.3.2 三条有向序列翻转中值的分支限界算法
  • 6.3.3 三条有向序列翻转中值的算法试验性能分析
  • 6.4 基于其它基因组重排机制的中值问题
  • 6.5 本章小结
  • 7 总结
  • 7.1 本文工作
  • 7.2 本文贡献和创新之处
  • 7.3 进一步的工作
  • 附录
  • A 算法索引
  • B 插图索引
  • C 表格索引
  • 致谢
  • 在读期间所参加的科研项目
  • 在读期间所发表和录用的论文
  • 相关论文文献

    • [1].英汉多义词模体的计量特征[J]. 湖南科技大学学报(社会科学版) 2020(01)
    • [2].位置重复性对射波刀模体绝对剂量验证的影响[J]. 中国医学物理学杂志 2020(09)
    • [3].线性短模体:介导蛋白质相互作用的新模块[J]. 生物化学与生物物理进展 2017(02)
    • [4].机械结构网络模体探究[J]. 轻工机械 2015(02)
    • [5].基于笔形束散射核的非均匀模体透射平面散射线分析[J]. 中国医学物理学杂志 2020(01)
    • [6].基于多模体特征的科学家合作预测[J]. 电子科技大学学报 2020(05)
    • [7].基于网络模体特征攻击的网络抗毁性研究[J]. 复杂系统与复杂性科学 2017(04)
    • [8].生物网络模体发现算法研究综述[J]. 电子学报 2009(10)
    • [9].基于组合的序列特征识别蛋白质复杂超二级结构βαβ模体[J]. 内蒙古工业大学学报(自然科学版) 2015(03)
    • [10].结合最大团求精的随机投影模体发现算法[J]. 中国科技论文 2013(04)
    • [11].蛋白质中五类超二级结构模体的统计分析[J]. 安徽农业科学 2012(26)
    • [12].一种长度可调水模体的研制[J]. 医疗卫生装备 2011(03)
    • [13].蛋白质作用网络中模体识别技术研究[J]. 计算机技术与发展 2010(08)
    • [14].基于显露子串挖掘的基因序列模体识别算法[J]. 现代电子技术 2017(12)
    • [15].基于优化特征参量的蛋白质βαβ模体识别分析[J]. 江苏农业科学 2015(02)
    • [16].3D虚拟模体设计软件的开发[J]. 生物医学工程学杂志 2014(01)
    • [17].富脯氨酸模体研究进展[J]. 生命科学研究 2008(04)
    • [18].一种新型SPECT性能检测模体的研制[J]. 中国医学装备 2014(05)
    • [19].非树型网络模体发现算法[J]. 电子学报 2009(11)
    • [20].镶块模模体脆性断裂原因分析与预防[J]. 金属加工(热加工) 2013(13)
    • [21].基于统计特征的酶蛋白质中特殊模体βαβ的预测[J]. 生物物理学报 2013(09)
    • [22].基于位置相互关系的模体识别算法[J]. 电子科技 2010(01)
    • [23].有向动态网络中基于模体演化的链路预测方法[J]. 计算机应用研究 2019(05)
    • [24].离散时间序列的网络模体分析[J]. 物理学报 2010(03)
    • [25].蛋白质βαβ模体序列的统计分析及其识别[J]. 昆明理工大学学报(理工版) 2010(05)
    • [26].简易型模拟剂量验证模体的设计及应用[J]. 医疗装备 2009(02)
    • [27].用二次判别方法识别蛋白质β-发夹模体[J]. 生物物理学报 2009(04)
    • [28].锻锤用圆模体使用寿命的影响因素及提高方法[J]. 模具工业 2013(06)
    • [29].基于模体压缩的生物学模型简化研究[J]. 荆楚理工学院学报 2016(06)
    • [30].计算机技术在转录因子结合位点识别的研究及应用[J]. 电子技术与软件工程 2014(20)

    标签:;  ;  ;  ;  ;  ;  ;  

    生物序列数据比较与模体发现算法研究
    下载Doc文档

    猜你喜欢