论文摘要
序列比对是现代生物信息学中的一个最基本的研究课题。随着生物数据库快速持续的增长,对多序列比对算法的敏感性和运算速度提出了更高的要求,开发具有高敏感性和高效率的算法成为当今研究的重点。本文对此进行了深入研究和探讨,主要研究成果如下:本文首先介绍了序列比对涉及的基本问题:空位罚分,替换矩阵和比对结果评价标准。接着对基于渐进方法构建的多序列比对算法ClustalW、T-Coffee和Muscle算法进行了深入的研究。然后通过对这些算法的分析,对Kalign算法提出了改进。Kalign是一种常见的多重序列比对算法,它使用Wu-Manber字符匹配算法来改善比对的质量和速度,对大量序列和距离较远的序列的比对有较明显的速度优势。然而由于对序列的距离估计不准导致比对的质量不高。本文提出了一种改进Kalign比对质量的算法---Kalign’s算法,根据Kalign最初比对的结果,利用新的序列距离测试方法计算出新的两两序列之间的距离,然后使用UPGMA方法构建向导树,再进行渐进比对,产生新的比对结果。重复这一过程,直到比对的SP得分不再改变或者达到一定迭代次数为止。用Balibase3.0进行测试,结果显示该算法较好的改进了Kalign的比对质量。
论文目录
摘要ABSTRACT第一章 绪论1.1 生物信息学的背景及意义1.2 生物信息学的研究现状1.3 论文主要工作及安排1.3.1 论文主要工作1.3.2 论文内容具体安排1.4 本章小结第二章 序列比对基础2.1 概论2.2 空位罚分和记分矩阵2.2.1 空位罚分2.2.2 记分矩阵2.3 目标函数2.3.1 SP 目标函数2.3.2 COFFEE 目标函数2.4 序列比对2.4.1 双序列比对2.4.2 多序列比对2.5 本章小结第三章 生物序列比对算法研究现状3.1 双序列比对3.1.1 双序列比对算法数学原理3.1.2 点阵图法3.1.3 动态规划算法3.1.4 BLAST 和FASTA 算法3.2 多序列比对3.2.1 多序列比对算法分析3.2.2 经典多序列比对算法简介3.2.3 一些其它多序列比对算法3.3 本章小结第四章 KALIGN’S 方法的提出与研究4.1 字符串匹配原理4.1.1 基本概念4.1.2 字符串匹配原理4.2 Wu-Manber 算法数学原理4.3 KALIGN 算法4.4 KALIGN 算法的改进----KALIGN’s 算法4.4.1 相似性得分4.4.2 序列距离4.4.3 树的构造4.4.4 序列加权4.4.5 迭代优化4.5 本章小结第五章 KALIGN’s 算法比对质量的实现与评估5.1 多序列比对算法评价基准数据集 BAliBASE5.2 Kalign’s 算法测试结果5.3 本章小结第六章 结束语致谢参考文献攻硕期间取得的研究成果
相关论文文献
标签:多重序列比对论文; 序列距离论文; 迭代比对论文;