Print

基于FFT和k-mer划分的多序列比对

论文摘要

序列比对是现代生物信息学中一个最基本的研究课题。随着生物数据库快速持续的增长,对多序列比对算法的敏感性和运算速度提出了更高的要求,开发具有高敏感性和高效率的算法成为当今研究的重点。本文提出一个新的算法KMDMSA,它能在保持原来比对精度的前提下,降低比对的时间复杂度。本文首先介绍了序列比对涉及的基本问题:空位罚分,替换矩阵和比对结果评价标准。接着对基于渐进方法构建的多序列比对算法ClustalW进行了深入的研究。然后通过对这些算法的分析,对当前最流行的渐进比对提出了改进。MAFFT最早将分治思想应用到序列比对。它把快速傅立叶变换应用到序列比对,使得两序列比对的时间复杂度从O(L2)降低到O(LlgL)。通过把k-mer应用在序列比对中,并结合分治思想,本文提出了一个新的多序列比对方法:KMDMSA。它通过快速的识别同源区域,把比对问题分成子问题予以解决。而寻找同源片断的时间复杂度也从O(LlgL)降低到O(L)。为了降低时间和空间复杂度,该方法包含两个技术:k-mer查找和压缩字母。为了验证比对效果,把KMDMSA的性能同大多数当前流行的方法作以比较。实验结果表明KMDMSA和其他方法具有可比的精度,而时间上却有更小的开销。这也证明该方法是有效的多序列比对方法。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 引言
  • 1.2 生物信息学序列比对现状
  • 1.3 本文所做的工作
  • 第二章 生物序列比对基础
  • 2.1 序列比对概述
  • 2.1.1 序列比对的基本概念
  • 2.1.2 打分系统
  • 2.1.3 标准测试集与评判标准
  • 2.2 序列比对算法
  • 2.2.1 双序列比对
  • 2.2.2 多序列比对
  • 2.2.3 渐进比对方法
  • 2.3 本章小结
  • 第三章 基于FFT的多序列比对方法
  • 3.1 FFT基础知识
  • 3.2 利用FFT进行多序列比对
  • 3.2.1 FFT应用在两序列比对
  • 3.2.2 FFT应用在序列组间的比对
  • 3.3 本章小结
  • 第四章 基于k-mer的多序列比对方法
  • 4.1 利用k-mer计算距离矩阵
  • 4.1.1 k-mer统计
  • 4.1.2 压缩字母表
  • 4.1.3 用k-mer统计求距离矩阵
  • 4.2 k-mer在对两序列比对中的应用
  • 4.2.1 利用k-mer划分比对
  • 4.2.2 算法与时间复杂度分析
  • 4.2.3 利用k-mer扩展求同源片断
  • 4.3 实验结果及分析
  • 4.3.1 实验结果
  • 4.3.2 结果分析
  • 4.4 本章小结
  • 第五章 结论与展望
  • 致谢
  • 参考文献
  • 研究成果
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/b3ccd0649f57d163972a1d2b.html