论文摘要
变异是遗传学的基本研究对象,而基因组变异是产生其他类型变异的基础,因此,准确有效的基因组变异检测手段是遗传学研究的前提,在很多其他研究领域中也具有重要意义。随着人类基因组全序列的测定以及随后下一代测序技术的问世,基因组变异的检测手段进入了大规模、高通量时代。通过构建文库、上机测序、比对序列、检测变异这样的一般流程,就可获得分布于全基因组的大量变异信息。与之对应,也涌现了大量的基因组变异检测技术。然而,对于广泛存在于多细胞生物基因组中的结构变异和低频变异,仍然需要开发更好的检测手段。本论文主要介绍了通过改进序列文库的构建流程并开发相应的计算方法来深度挖掘基因组结构变异和低频变异的技术研究。ditag技术是一项用低测序覆盖度序列检测大型基因组中等大小缺失的技术。用限制性内切酶消化肝癌基因组DNA并独立构建了两个配对测序文库(mate-paired library).通过SOLiD测序,共产生了3Gb(约为1×人类基因组大小)限制性配对短序列(ditags),并通过分析ditags与参考序列的异常比对结果,检测到175个中等大小的缺失。Sanger测序结果显示总体的准确率为95%。两个文库的检测结果显示了ditag测序技术良好的重现性。使用ditag检测缺失的计算流程分析四种不同品系驯养鸡的双端RRL数据,也同样成功检测到了六千余个基因组缺失,检测效率远高于配对关系分析法(read pair analysis).虚拟长序列(Pseudo-Sanger)技术是补足双端测序序列中空余的插入片段,从而得到500-600bp长序列的方法.由黑腹果蝇W1118(Drosophila melanogaster)的基因组D认构建插入长度分布为100-600bp的梯度文库并双端测序。使用AnyTag软件将所测得的6364万条短序列拼接成569万条虚拟长序列。将虚拟长序列与基因组参考序列比对,共检测到876个结构变异,包括723个缺失、122个插入或重排和31个倒位。经过实验验证,总体的检测准确度为85.7%(54/63),证明虚拟长序列可以准确的检测基因组结构变异的断点。“序列家族”(read family)分析技术是从微量组织DNA文库测序结果中分析低频变异的技术。取仅包含100个细胞的肝硬化组织样品,将其基因组DNA打断并全基因组扩增、建库和双端测序,由于总模板数远小于DNA片段断裂位置可能产生的组合数,可根据配对序列的起始位置将序列聚类成序列家族,并通过判断不少于5个成员的序列家族内部序列的一致性,得以排除测序错误对检测低频变异带来的影响。由此,我们共得到212Mb来自单分子的家族序列,并从中检测到93个低频体细胞变异。对结构变异和低频变异的检测是当今基因组学研究的热点和难点。本论文所提出的几种技术通过对实验和分析手段的创新,成功地在人类的癌细胞、肝细胞和果蝇基因组中检测到结构变异或低频变异,并且在投入成本、检测准确性等方面具有一定的优势,在遗传学、发育生物学、癌生物学、生态学及转化医学等领域有广阔的应用前景。
论文目录
致谢摘要Abstract专业词汇中英文对照表目录1 绪论1.1 基因组变异1.1.1 人类基因组中的结构变异1.1.2 基因组缺失1.1.3 癌症基因组中的结构变异1.2 基因组变异的传统检测技术1.3 下一代测序技术1.4 基于下一代测序平台的变异检测技术1.4.1 序列比对技术1.4.2 基于比对校正碱基质量值1.4.3 点突变检测技术1.4.4 结构变异检测技术1.4.5 低频变异检测技术1.5 限制性内切酶与下一代测序技术1.5.1 RAD-seq1.5.2 RRL1.5.3 GBS1.5.4 其他技术1.6 本论文所要解决的问题和意义1.6.1 基因组缺失的低序列覆盖度检测技术1.6.2 基于局部序列拼接的结构变异检测技术1.6.3 微量细胞样本中低频变异检测技术2 材料与方法2.1 实验材料2.1.1 实验样品2.1.2 实验试剂与仪器2.2 实验方法2.2.1 基因组DNA的制备2.2.2 drag文库制备2.2.3 虚拟长序列文库制备2.2.4 微量细胞分离2.2.5 微量细胞全基因组扩增与文库构建2.2.6 上机测序2.2.7 验证ditag检测的缺失2.2.8 验证虚拟长序列检测的结构变异2.2.9 验证肝硬化组织DNA点突变2.3 分析方法2.3.1 对不同限制性内切酶检测频率的计算机模拟2.3.2 序列比对2.3.3 虚拟长序列拼接2.3.4 对虚拟长序列评价2.3.5 从虚拟长序列比对结果中检测结构变异2.3.6 检测肝硬化样本DNA中低频变异3 研究结果3.1 ditag技术的开发3.1.1 在原有方法上的主要改进3.1.2 对多种限制性内切酶检测水平的模拟3.1.3 ditag测序与错误比对的过滤3.1.4 两个文库ditags一致性分析3.1.5 基因组缺失的确定3.1.6 候选缺失的验证3.2 ditag技术在RRL数据中的应用3.2.1 RRL与ditag3.2.2 数据来源3.2.3 序列比对与ditag转换3.2.4 基因组缺失的鉴定3.2.5 与已有结果的比较3.3 基于局部拼接方法检测结构变异3.3.1 梯度双端测序文库3.3.2 短序列局部拼接算法AnyTag简介3.3.3 虚拟长序列的组装3.3.4 对虚拟长序列的评估3.3.5 用虚拟长序列检测结构变异3.3.6 用PCR验证所检测的结构变异3.4 低频率点突变检测技术3.4.1 500个细胞样品HN500的变异筛选3.4.2 HN500候选变异的验证3.4.3 片段断点与序列家族3.4.4 从100个细胞样本CN100中筛选变异3.4.5 CN100体细胞突变率的估计4 结论与讨论4.1 结构变异的高效检测方案4.2 基于短序列拼接技术的结构变异检测4.3 超低频变异的检测4.4 结论参考文献附录附表1 在人类基因组参考序列hg18的限制性内切酶识别位点分析附表2 使用ditag技术实际检测到的基因组缺失列表附表3 用于验证ditags测得的基因组缺失的扩增引物列表1118基因组中检测到的结构变异列表'>附表4 使用虚拟长序列在果蝇w1118基因组中检测到的结构变异列表附表5 用于验证虚拟长序列所检测的结构变异的扩增引物列表作者简介及在学期间发表的学术论文与研究成果作者简历获奖情况己发表或正式接受的学术论文参加的研究项目
相关论文文献
标签:下一代测序技术论文; 基因组变异论文; 结构变异论文; 低频变异论文;