论文摘要
插入缺失对物种基因组结构和适应性进化起着非常重要的作用。然而,目前对插入缺失的进化研究还很不充分。一方面,我们可以利用具有完整基因组信息的模式生物来研究插入缺失的进化。作为一个例子,我们研究了果蝇中插入缺失的演化。我们研究了黑腹果蝇和拟果蝇中7500基因,选用yakuba果蝇种系作为外群。编码区插入缺失的进化速率很低,只有非同义替换的3%。为了解决这个问题,我们对黑腹果蝇一个同基因品系ZS30进行深度测序(70X)并与参考序列进行比较来考察种内多态性。通过比较多态性和分化,我们发现对1-10bp的插入缺失的固定系数与同义替换相近,这暗示着这部分插入缺失是中性进化的。有趣的是,11-30bp的缺失有一个更高的固定系数,并且估计有44.4%的这部分缺失是适应性进化的。这个模式没有在插入突变中发现。蛋白质中的插入缺失好像是以中性的插入进行扩张,同时由适应性的缺失进行缩减。这些观察对理解新突变的适合度具有重要意义,同时也对果蝇物种的基因组演化提供了重要线索。另一方面,我们可以在非模式物种中进行插入缺失的进化研究。限制性酶切位点相关的DNA标记测序技术(RAD-Seq)方法可以快捷、方便地获得物种的分子标记信息。当所研究物种基因组参考序列信息未知或者不完全时,RAD-Seq的优势尤其显著。它充分利用了第二代测序技术的高通量、低成本、自动化等优势,能够高效地获得全基因组范围的分子标记信息。双端RAD-Seq短序列的一端是整齐的来源于限制性酶切位点的RAD标签序列,另一端是呈阶梯状的在随机打断过程中形成的第二端序列。通过把带有同样RAD标签的双端短序列聚类到一组中,并且利用这些短序列进行局部拼接,我们可以得到简化了的基因组序列信息。这些序列可以作为参考序列来识别分子标记和进行群体遗传学分析。然而,RAD-Seq短序列通常数以百万、千万计,并且这些短序列还存在测序错误,来源于具有不同水平的杂合度的基因组,并且基因组的重复序列程度可能很高。如何快速和准确地聚类成百上千万的RAD-Seq测序短序列并局部拼接得到可靠的参考序列是一个有挑战性的生物信息学问题。为了能够对高通量的RAD-Seq短序列进行快速分组,并且允许分在同一组的短序列存在测序错误,我们采用间隔种子(spaced seed)的方法对RAD标签序列进行初步聚类。但是容错的初步聚类可能会把基因组不同位置的相似序列分在一组,例如重复序列。RAD-Seq数据分析的一个目标是尽可能区分重复序列。为此,我们用一个自顶向下的类似于检测杂合位点的办法,把初步聚类划分成子类,使每一个子类代表一个单倍型。这样的策略可以区分重复序列,但也将杂合位点处序列区分开来。RAD-Seq数据分析的另一个目标是尽可能合并杂合位点序列。为此,在一棵指导树上,如果兄弟叶节点足够相似的话,我们用一个自底向上的方式对它们进行合并。这里的相似度是通过比较RAD片段的第二端短序列来定义的。这样三个逐步精炼的聚类方案试图在区分重复序列的同时能够合并杂合位点序列。最后,我们实现了一个贪婪算法,把最后合并的短序列局部拼接成为序列重叠群(contig)。为了进一步区分基因组不同区域的序列,对每一个局部聚类,我们不仅可以输出最优的拼接结果,也可以输出次优结果。这样,我们提供了一套超快速、有效的RAD-Seq短序列聚类和组装的综合解决方案。基于这样的设计策略,我们开发了RAD-Seq短序列聚类和局部拼接工具——Rainbow。在多个不同杂合度水平的模拟数据集和一个真实的孔雀鱼RAD-Seq数据集上,我们展示了Rainbow比其他程序更加胜任于RAD-Seq的分析工作。Rainobw用C语言开发完成,是在开源GNU通用公共许可证下开发的开源程序,其源代码可在http://sourceforge.net/projects/bio-rainbow/files/免费获取。