论文摘要
由于分子进化树所具有的优点,使其有望澄清生命系统树中多处对于经典途径来说极为棘手的问题,重建物种的进化历史。根据不同物种的核酸序列的差异可以构建出分子进化树。进化树给出拓扑图形(分支层次)以及树枝的长度。拓扑图形是各个物种之间关系的反映,树枝的长度是对进化距离的反映。但是现在对于进化树的构建都是基于一种单一的进化背景——只考虑到突变对进化的影响。由于真核生物种间的重组事件比较稀少,所以这种基于单一背景的进化树的分析对于真核生物来说可以得到正确的结论。但是原核微生物的基因重组(包括转化、转导、接合、原生质体融合)是原核微生物进化的重要来源。如果所分析的原核微生物DNA序列发生过重组,而分析只基于单一的突变背景,则导致进化树的构建发生错误。因此,在进行进化树分析之前,必须先分析所要分析的序列是否发生过重组。最近十年内,提出了很多探测重组的方法。其中很多是基于一种思想:设置一个固定大小的窗口,沿着序列方向移动窗口并计算每次移动后窗口所在的序列的各种概率,对概率进行统计进而反应重组位点。还有另外一种基于隐马尔柯夫和贝叶斯思想的方法。现有探测重组方法的前提条件为:序列所有位点的进化速率一致。违背了真实的进化条件。根据前人的研究,可以利用离散或者连续的数学模型对序列位点的进化速率的规律进行建模。目前用得比较广泛的是连续数学模型的伽玛分布。伽玛分布含有两个参数,其中形状参数决定了序列位点的进化速率的分布规律。前人的研究表明,现实世界中序列位点进化速率的分布的形状参数在0.2至3.5范围内发生变异。由于现有探测重组方法的前提条件为:序列所有位点的进化速率一致,违背了真实的进化条件。本研究的目的是进化速率不一致对重组片段探测的影响及解决方法。我们利用伽玛分布来构建速率不一致的模型,利用计算机模拟产生不同形状参数的进化序列。利用隐马尔科夫链来构建重组探测的数学模型,采用蒙特卡罗方法从参数的后验分布中抽取参数的样本值对模拟的序列进行分析。本研究表明伽玛分布的形状参数与现有重组探测方法的正确度相关:形状参数值越小,现有重组探测方法的正确度越小,而且其表现越不稳定。从本研究所提出的方法与现有重组探测方法的对比可以看出,本研究能更好地探测重组片段,尤其是伽玛分布的形状参数较小的情况下。