单体型组装问题参数化建模及算法研究

单体型组装问题参数化建模及算法研究

论文摘要

分析和识别单体型对复杂疾病致病基因的精确定位有重要作用。单体型组装问题是利用个体DNA测序片段数据推出该个体一对单体型的计算问题。根据不同的优化准则,单体型组装问题有MSR、MFR、MEC和MEC/GI等计算模型。单体型组装问题的绝大部分计算模型都被证明是NP-难的,缺乏实用的精确算法。在实际DNA片段数据中,一个片段所覆盖的最大SNP位点数k1通常小于10,覆盖一个SNP位点的最大片段数k2通常不大于19。基于以上事实,本文对MSR和MFR进行参数化建模。在此基础上,为求解无空隙的MSR和MFR,本文设计了时间复杂度分别为O(nk1k2+mlogm+mk1)和O(mk22+mk1k2+mlogm+nk2)的精确算法PMSR和PMFR,其中m为片段数,n为单体型的SNP位点数;为求解有空隙的MSR和MFR,本文设计了时间复杂度分别为O(2knk1k2+mlogm+nk2+mk1)和O(2kmk1k2+23kmk22+mlogm+nk2+mk1)的精确算法PGMSR和PGMFR,其中k为片段中最大洞数。大量实验结果表明,在Bafna等的对应算法基础上,上述参数化算法的效率显著提高,适用于全基因组规模上的单体型组装。针对长的mate-pair中洞的个数较多的情况,本文提出了求解MSR和MFR时间复杂度分别为O(nk1k222h+k12h+nk2+mk1)和O(nk23k2+mlogm+nk2+mk1)的参数化精确算法PMMSR和PMMFR,其中h为覆盖同一SNP位点且在该位点取空值的片段的最大数。在实际的DNA测序数据中,k2通常不大于19,而h不大于17,理论分析和实验结果均表明PMMSR和PMMFR算法所需的时间与片段中洞的个数的最大值k没有直接的关系,在片段数据中存在长mate-pair的情况下仍然能有效计算。根据实际DNA测序片段数据的特点,本文对MEC和MEC/GI进行参数化建模,进而设计出求解这两个模型时间复杂度均为O(nk22k2+mlogm+mk1)的精确算法PMEC和PMEC/GI。实验结果表明,在片段数达到100,Wang等提出的分支限界算法已无法运行的情况下,PMEC、PMEC/GI和Wang等提出的遗传算法一样,仍然能快速运行。而作为精确算法,PMEC和PMEC/GI在单体型重构精度上比Wang等对应的遗传算法有明显优势。为了提高单体型的重构精度,本文提出了一个基于加权片段数据和有误差基因型的单体型组装问题计算模型WMEC/GS,然后证明了即使片段中无空隙其也是NP-难的。进而根据片段数据的特点,提出了求解该模型的时间复杂度为O(nk22k2+mlogm+mk1)的参数化算法PWMEC/GS。对MEC/GI、WMLF和WMEC/GS三模型的大量实验表明WMEC/GS模型具有最高的单体型重构精度。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 单体型分型的重要意义
  • 1.3 单体型分型计算
  • 1.3.1 单体型组装问题
  • 1.3.2 单体型推断问题
  • 1.4 参数计算理论
  • 1.5 本文的主要研究内容及结构安排
  • 第二章 单体型组装问题
  • 2.1 遗传的物质基础及遗传法则
  • 2.1.1 染色体
  • 2.1.2 DNA分子与基因
  • 2.1.3 分子生物学的中心法则
  • 2.2 单核苷酸多态性、单体型和基因型
  • 2.3 单体型组装问题
  • 2.3.1 单体型组装问题相关概念
  • 2.3.2 单体型组装问题计算模型及研究现状
  • 2.4 本章小结
  • 第三章 MSR和MFR参数化模型和算法
  • 3.1 引言
  • 3.2 MSR和MFR参数化模型
  • 3.3 MSR和MFR参数化算法
  • 3.3.1 预处理
  • MSR参数化算法'>3.3.2 PMSR参数化算法
  • MFR参数化算法'>3.3.3 PMFR参数化算法
  • MSR参数化算法'>3.3.4 PGMSR参数化算法
  • MFR参数化算法'>3.3.5 PGMFR参数化算法
  • 3.4 实验结果
  • 3.4.1 无空隙MSR和MFR算法性能比较
  • 3.4.2 有空隙MSR和MFR算法性能比较
  • 3.5 本章小结
  • 第四章 有长Mate-Pair时MSR和MFR参数化算法
  • 4.1 引言
  • 4.2 有长Mate-Pair时MSR参数化算法
  • 4.2.1 有长Mate-Pair片段时MSR参数化模型
  • 4.2.2 预处理
  • MSR算法'>4.2.3 PMMSR算法
  • 4.2.4 实验结果
  • 4.3 有长Mate-Pair时MFR参数化算法
  • 4.3.1 有长Mate-Pair片段时MFR参数化模型
  • 4.3.2 预处理
  • MFR参数化算法'>4.3.3 PMMFR参数化算法
  • 4.3.4.实验结果
  • 4.4 本章小结
  • 第五章 MEC与MEC/GI参数化模型和算法
  • 5.1 引言
  • 5.2 MEC和MEC/GI参数化模型
  • 5.3 MEC和MEC/GI参数化算法
  • MEC参数化算法'>5.3.1 PMEC参数化算法
  • MEC/GI参数化算法'>5.3.2 PMEC/GI参数化算法
  • 5.4 实验结果
  • 5.5 本章小结
  • 第六章 WMEC/GS模型和参数化算法
  • 6.1 引言
  • 6.2 基因型谱加权最小错误纠正模型WMEC/GS
  • 6.3 WMEC/GS的参数化算法
  • 6.4 实验结果
  • 6.5 本章小结
  • 第七章 总结
  • 7.1 主要贡献和创新点
  • 7.2 展望
  • 参考文献
  • 致谢
  • 攻读博士学位期间主要的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    单体型组装问题参数化建模及算法研究
    下载Doc文档

    猜你喜欢