生物信息学中的多序列比对与模体识别问题研究

生物信息学中的多序列比对与模体识别问题研究

论文摘要

基因组计划的实施,使序列数据激增,序列分析成为生物信息学的首要任务。序列比对与序列模体(motif)识别是进行生物序列分析的两个主要方法。本论文主要针对多序列比对问题和模体识别问题进行了方法上的研究。本文的主要工作和创新点如下:1、针对生物序列分析中的多序列比对问题,设计了求解多序列比对问题的混合遗传算法。首先采用SP记分函数作为个体的适应度函数,设计了4种遗传算子,对BAliBASE中Ref.1进行了测试,其结果表明该算法对等距蛋白质序列比对是有效的,其中部分比对结果优于ClustalX。2、为了进一步提高算法求解问题的范围及求解的精度,算法改用COFFEE函数作为个体的适应度函数,与之相应的软件称为PHGA-COFFEE,构造了6种遗传算子,特别是设计了2种新颖的变异算子,其中一种变异算子基于COFFEE的一致性信息设计,以改善算法的整体搜索能力;另一种变异算子基于动态规划方法设计,以增强其局部搜索能力。最后,通过对BAliBASE中144个测试例的测试,证明PHGA-COFFEE是有效的,与已有的算法相比,该算法对处于朦胧区和具有N/C末端延伸的序列比对问题有更强的问题求解能力。同时通过对算法并行化,其运行时间显著缩短。3、针对多序列比对中的Profile HMM的参数优化问题,提出了遗传算法与Baum-Welch(BW)算法相结合的混合遗传算法。通过实验分析,证明经过混合遗传算法的训练而得到的Profile HMM能更好地描述多序列比对,从而得到更加准确的比对结果。4、针对生物序列模体的识别问题,提出了一个新的混合Gibbs抽样识别算法。算法基于混合模体模型学习,采用贪心策略,通过似然度最大化,逐次将新的模体加入到混合模型中。算法中设计了位点抽样和模体抽样两种抽样方法,这两种抽样方法交替进行。为了加速搜索过程,对输入数据集采用了基于kd-trees的分层划分策略。实验结果表明,该算法对序列家族大量模体特征的识别具有显著优势,并且可建立更具统计特征的模体模型,从而提高序列分类的准确性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景与现状
  • 1.1.1 生物序列分析的意义
  • 1.1.2 多序列比对问题及研究现状
  • 1.1.3 模体识别问题及研究现状
  • 1.1.4 生物序列数据库
  • 1.1.5 生物序列图标Logo
  • 1.2 本文的主要工作与内容安排
  • 第二章 多序列比对问题的遗传算法求解
  • 2.1 引言
  • 2.1.1 相似性记分矩阵
  • 2.1.2 空位罚分
  • 2.1.3 双序列比对
  • 2.1.4 多序列比对问题优化模型
  • 2.1.5 算法基础
  • 2.2 SP-GA :基于SP 记分函数的遗传算法求解
  • 2.2.1 染色体编码
  • 2.2.2 交叉算子
  • 2.2.3 变异算子
  • 2.2.4 选择算子
  • 2.2.5 算法描述
  • 2.2.6 测试结果
  • 2.3 PHGA-COFFEE:基于COFFEE 记分函数的遗传算法求解
  • 2.3.1 种群初始化
  • 2.3.2 变异算子
  • 2.3.3 迁移算子
  • 2.3.4 双序列比对库的生成
  • 2.3.5 算法描述
  • 2.3.6 测试结果
  • 2.4 小结
  • 第三章 Profile HMM 的混合遗传算法优化
  • 3.1 引言
  • 3.1.1 隐马尔可夫模型
  • 3.1.2 隐马尔可夫模型的计算
  • 3.2 序列谱隐马尔可夫模型Profile HMM
  • 3.2.1 Profile HMM 的结构
  • 3.2.2 基于已有Profile HMM 的多序列比对
  • 3.2.3 Profile HMM 的从头训练
  • 3.2.4 基于Profile HMM 的从头比对
  • 3.3 Profile HMM 的混合遗传算法优化
  • 3.3.1 染色体编码
  • 3.3.2 种群初始化
  • 3.3.3 适应度函数
  • 3.3.4 交叉算子
  • 3.3.5 变异算子
  • 3.3.6 计算中的数据稳定性问题
  • 3.3.7 概率参数估计的调整
  • 3.3.8 混合遗传算法HGA-HMM 描述
  • 3.3.9 实验结果
  • 3.4 小结
  • 第四章 生物序列模体的混合 Gibbs 抽样识别算法
  • 4.1 引言
  • 4.1.1 混合模体模型
  • 4.1.2 Gibbs 抽样算法
  • 4.2 混合Gibbs 抽样算法
  • 4.2.1 确立初始参数候选集
  • 4.2.2 位点抽样
  • 4.2.3 模体抽样
  • 4.2.4 侯选集的修改
  • 4.2.5 混合Gibbs 抽样算法——MSAM
  • 4.2.6 算法复杂性分析
  • 4.2.7 实验结果
  • 4.3 小结
  • 结束语
  • 致谢
  • 参考文献
  • 附录1
  • 附录2
  • 附录3
  • 在读期间撰写(发表)的论文目录
  • 在读期间参加的科研项目
  • 相关论文文献

    • [1].英汉多义词模体的计量特征[J]. 湖南科技大学学报(社会科学版) 2020(01)
    • [2].位置重复性对射波刀模体绝对剂量验证的影响[J]. 中国医学物理学杂志 2020(09)
    • [3].线性短模体:介导蛋白质相互作用的新模块[J]. 生物化学与生物物理进展 2017(02)
    • [4].机械结构网络模体探究[J]. 轻工机械 2015(02)
    • [5].基于笔形束散射核的非均匀模体透射平面散射线分析[J]. 中国医学物理学杂志 2020(01)
    • [6].基于多模体特征的科学家合作预测[J]. 电子科技大学学报 2020(05)
    • [7].基于网络模体特征攻击的网络抗毁性研究[J]. 复杂系统与复杂性科学 2017(04)
    • [8].生物网络模体发现算法研究综述[J]. 电子学报 2009(10)
    • [9].基于组合的序列特征识别蛋白质复杂超二级结构βαβ模体[J]. 内蒙古工业大学学报(自然科学版) 2015(03)
    • [10].结合最大团求精的随机投影模体发现算法[J]. 中国科技论文 2013(04)
    • [11].蛋白质中五类超二级结构模体的统计分析[J]. 安徽农业科学 2012(26)
    • [12].一种长度可调水模体的研制[J]. 医疗卫生装备 2011(03)
    • [13].蛋白质作用网络中模体识别技术研究[J]. 计算机技术与发展 2010(08)
    • [14].基于显露子串挖掘的基因序列模体识别算法[J]. 现代电子技术 2017(12)
    • [15].基于优化特征参量的蛋白质βαβ模体识别分析[J]. 江苏农业科学 2015(02)
    • [16].3D虚拟模体设计软件的开发[J]. 生物医学工程学杂志 2014(01)
    • [17].富脯氨酸模体研究进展[J]. 生命科学研究 2008(04)
    • [18].一种新型SPECT性能检测模体的研制[J]. 中国医学装备 2014(05)
    • [19].非树型网络模体发现算法[J]. 电子学报 2009(11)
    • [20].镶块模模体脆性断裂原因分析与预防[J]. 金属加工(热加工) 2013(13)
    • [21].基于统计特征的酶蛋白质中特殊模体βαβ的预测[J]. 生物物理学报 2013(09)
    • [22].基于位置相互关系的模体识别算法[J]. 电子科技 2010(01)
    • [23].有向动态网络中基于模体演化的链路预测方法[J]. 计算机应用研究 2019(05)
    • [24].离散时间序列的网络模体分析[J]. 物理学报 2010(03)
    • [25].蛋白质βαβ模体序列的统计分析及其识别[J]. 昆明理工大学学报(理工版) 2010(05)
    • [26].简易型模拟剂量验证模体的设计及应用[J]. 医疗装备 2009(02)
    • [27].用二次判别方法识别蛋白质β-发夹模体[J]. 生物物理学报 2009(04)
    • [28].锻锤用圆模体使用寿命的影响因素及提高方法[J]. 模具工业 2013(06)
    • [29].基于模体压缩的生物学模型简化研究[J]. 荆楚理工学院学报 2016(06)
    • [30].计算机技术在转录因子结合位点识别的研究及应用[J]. 电子技术与软件工程 2014(20)

    标签:;  ;  ;  ;  ;  ;  

    生物信息学中的多序列比对与模体识别问题研究
    下载Doc文档

    猜你喜欢