基于FFT和k-mer划分的多序列比对

论文摘要

序列比对是现代生物信息学中一个最基本的研究课题。随着生物数据库快速持续的增长,对多序列比对算法的敏感性和运算速度提出了更高的要求,开发具有高敏感性和高效率的算法成为当今研究的重点。本文提出一个新的算法KMDMSA,它能在保持原来比对精度的前提下,降低比对的时间复杂度。本文首先介绍了序列比对涉及的基本问题:空位罚分,替换矩阵和比对结果评价标准。接着对基于渐进方法构建的多序列比对算法ClustalW进行了深入的研究。然后通过对这些算法的分析,对当前最流行的渐进比对提出了改进。MAFFT最早将分治思想应用到序列比对。它把快速傅立叶变换应用到序列比对,使得两序列比对的时间复杂度从O（L2）降低到O（LlgL）。通过把k-mer应用在序列比对中,并结合分治思想,本文提出了一个新的多序列比对方法:KMDMSA。它通过快速的识别同源区域,把比对问题分成子问题予以解决。而寻找同源片断的时间复杂度也从O（LlgL）降低到O（L）。为了降低时间和空间复杂度,该方法包含两个技术:k-mer查找和压缩字母。为了验证比对效果,把KMDMSA的性能同大多数当前流行的方法作以比较。实验结果表明KMDMSA和其他方法具有可比的精度,而时间上却有更小的开销。这也证明该方法是有效的多序列比对方法。

论文目录

摘要

Abstract

第一章绪论

1.1 引言

1.2 生物信息学序列比对现状

1.3 本文所做的工作

第二章生物序列比对基础

2.1 序列比对概述

2.1.1 序列比对的基本概念

2.1.2 打分系统

2.1.3 标准测试集与评判标准

2.2 序列比对算法

2.2.1 双序列比对

2.2.2 多序列比对

2.2.3 渐进比对方法

2.3 本章小结

第三章基于FFT的多序列比对方法

3.1 FFT基础知识

3.2 利用FFT进行多序列比对

3.2.1 FFT应用在两序列比对

3.2.2 FFT应用在序列组间的比对

3.3 本章小结

第四章基于k-mer的多序列比对方法

4.1 利用k-mer计算距离矩阵

4.1.1 k-mer统计

4.1.2 压缩字母表

4.1.3 用k-mer统计求距离矩阵

4.2 k-mer在对两序列比对中的应用

4.2.1 利用k-mer划分比对

4.2.2 算法与时间复杂度分析

4.2.3 利用k-mer扩展求同源片断

4.3 实验结果及分析

4.3.1 实验结果

4.3.2 结果分析

4.4 本章小结

第五章结论与展望

致谢

参考文献

研究成果

基于FFT和k-mer划分的多序列比对

论文摘要

论文目录

相关论文文献

猜你喜欢