论文摘要
随着人类基因组,微生物基因组和水稻基因组全序列测定项目的完成和快速进展,以及各种生物的基因和蛋白序列的研究,产生了越来越多的庞大的分子序列数据。对这些数据的科学分析,处理和保存促进了分子生物学和数学以及计算机科学的结合,产生了一门崭新的学科——计算分子生物学。计算分子生物学不仅有重大的科学意义,而且具有巨大的经济效益。它既属于基础研究,以探索生物学的自然规律为己任;又属于应用研究,它的许多研究成果可以较快或立即产业化,成为价值很高的产品。近几年来,计算分子生物学已成为生命科学中非常活跃的一个研究领域。计算分子生物学是现代信息科学,计算机科学,生命科学,数学,统计学,物理学,化学等很多学科相互交叉的学科,主要是研究分子生物学与基因和蛋白质序列有关的复杂计算问题。其中,生物序列的比较是分子生物学中最基本的问题,因为对于DNA序列,即使我们考虑它的一个很短的片段,我们也不可以直接得出它表示的对象所具有的全部信息,然而如果我们比较不同的生物序列就有可能得到某些重要信息,但是这个问题非常复杂,至今还有许多未解决的问题。总之,对生物序列进行分析和比较是计算分子生物学最基本也是最重要的课题之一,同时对生命科学的研究具有深远意义。本文将在生物序列的相似性分析方面进行研究,研究成果有:将由三次样条函数光滑化的曲线的曲率引入生物序列的相似性分析,提出用曲率作为新的不变量。并且以九种物种的β-球蛋白基因的第一个外显子编码序列为例,利用该方法分析了他们之间的相似性。本文的方法具有准确性高,计算简单等优点。