基因组变异的深度挖掘

基因组变异的深度挖掘

论文摘要

变异是遗传学的基本研究对象,而基因组变异是产生其他类型变异的基础,因此,准确有效的基因组变异检测手段是遗传学研究的前提,在很多其他研究领域中也具有重要意义。随着人类基因组全序列的测定以及随后下一代测序技术的问世,基因组变异的检测手段进入了大规模、高通量时代。通过构建文库、上机测序、比对序列、检测变异这样的一般流程,就可获得分布于全基因组的大量变异信息。与之对应,也涌现了大量的基因组变异检测技术。然而,对于广泛存在于多细胞生物基因组中的结构变异和低频变异,仍然需要开发更好的检测手段。本论文主要介绍了通过改进序列文库的构建流程并开发相应的计算方法来深度挖掘基因组结构变异和低频变异的技术研究。ditag技术是一项用低测序覆盖度序列检测大型基因组中等大小缺失的技术。用限制性内切酶消化肝癌基因组DNA并独立构建了两个配对测序文库(mate-paired library).通过SOLiD测序,共产生了3Gb(约为1×人类基因组大小)限制性配对短序列(ditags),并通过分析ditags与参考序列的异常比对结果,检测到175个中等大小的缺失。Sanger测序结果显示总体的准确率为95%。两个文库的检测结果显示了ditag测序技术良好的重现性。使用ditag检测缺失的计算流程分析四种不同品系驯养鸡的双端RRL数据,也同样成功检测到了六千余个基因组缺失,检测效率远高于配对关系分析法(read pair analysis).虚拟长序列(Pseudo-Sanger)技术是补足双端测序序列中空余的插入片段,从而得到500-600bp长序列的方法.由黑腹果蝇W1118(Drosophila melanogaster)的基因组D认构建插入长度分布为100-600bp的梯度文库并双端测序。使用AnyTag软件将所测得的6364万条短序列拼接成569万条虚拟长序列。将虚拟长序列与基因组参考序列比对,共检测到876个结构变异,包括723个缺失、122个插入或重排和31个倒位。经过实验验证,总体的检测准确度为85.7%(54/63),证明虚拟长序列可以准确的检测基因组结构变异的断点。“序列家族”(read family)分析技术是从微量组织DNA文库测序结果中分析低频变异的技术。取仅包含100个细胞的肝硬化组织样品,将其基因组DNA打断并全基因组扩增、建库和双端测序,由于总模板数远小于DNA片段断裂位置可能产生的组合数,可根据配对序列的起始位置将序列聚类成序列家族,并通过判断不少于5个成员的序列家族内部序列的一致性,得以排除测序错误对检测低频变异带来的影响。由此,我们共得到212Mb来自单分子的家族序列,并从中检测到93个低频体细胞变异。对结构变异和低频变异的检测是当今基因组学研究的热点和难点。本论文所提出的几种技术通过对实验和分析手段的创新,成功地在人类的癌细胞、肝细胞和果蝇基因组中检测到结构变异或低频变异,并且在投入成本、检测准确性等方面具有一定的优势,在遗传学、发育生物学、癌生物学、生态学及转化医学等领域有广阔的应用前景。

论文目录

  • 致谢
  • 摘要
  • Abstract
  • 专业词汇中英文对照表
  • 目录
  • 1 绪论
  • 1.1 基因组变异
  • 1.1.1 人类基因组中的结构变异
  • 1.1.2 基因组缺失
  • 1.1.3 癌症基因组中的结构变异
  • 1.2 基因组变异的传统检测技术
  • 1.3 下一代测序技术
  • 1.4 基于下一代测序平台的变异检测技术
  • 1.4.1 序列比对技术
  • 1.4.2 基于比对校正碱基质量值
  • 1.4.3 点突变检测技术
  • 1.4.4 结构变异检测技术
  • 1.4.5 低频变异检测技术
  • 1.5 限制性内切酶与下一代测序技术
  • 1.5.1 RAD-seq
  • 1.5.2 RRL
  • 1.5.3 GBS
  • 1.5.4 其他技术
  • 1.6 本论文所要解决的问题和意义
  • 1.6.1 基因组缺失的低序列覆盖度检测技术
  • 1.6.2 基于局部序列拼接的结构变异检测技术
  • 1.6.3 微量细胞样本中低频变异检测技术
  • 2 材料与方法
  • 2.1 实验材料
  • 2.1.1 实验样品
  • 2.1.2 实验试剂与仪器
  • 2.2 实验方法
  • 2.2.1 基因组DNA的制备
  • 2.2.2 drag文库制备
  • 2.2.3 虚拟长序列文库制备
  • 2.2.4 微量细胞分离
  • 2.2.5 微量细胞全基因组扩增与文库构建
  • 2.2.6 上机测序
  • 2.2.7 验证ditag检测的缺失
  • 2.2.8 验证虚拟长序列检测的结构变异
  • 2.2.9 验证肝硬化组织DNA点突变
  • 2.3 分析方法
  • 2.3.1 对不同限制性内切酶检测频率的计算机模拟
  • 2.3.2 序列比对
  • 2.3.3 虚拟长序列拼接
  • 2.3.4 对虚拟长序列评价
  • 2.3.5 从虚拟长序列比对结果中检测结构变异
  • 2.3.6 检测肝硬化样本DNA中低频变异
  • 3 研究结果
  • 3.1 ditag技术的开发
  • 3.1.1 在原有方法上的主要改进
  • 3.1.2 对多种限制性内切酶检测水平的模拟
  • 3.1.3 ditag测序与错误比对的过滤
  • 3.1.4 两个文库ditags一致性分析
  • 3.1.5 基因组缺失的确定
  • 3.1.6 候选缺失的验证
  • 3.2 ditag技术在RRL数据中的应用
  • 3.2.1 RRL与ditag
  • 3.2.2 数据来源
  • 3.2.3 序列比对与ditag转换
  • 3.2.4 基因组缺失的鉴定
  • 3.2.5 与已有结果的比较
  • 3.3 基于局部拼接方法检测结构变异
  • 3.3.1 梯度双端测序文库
  • 3.3.2 短序列局部拼接算法AnyTag简介
  • 3.3.3 虚拟长序列的组装
  • 3.3.4 对虚拟长序列的评估
  • 3.3.5 用虚拟长序列检测结构变异
  • 3.3.6 用PCR验证所检测的结构变异
  • 3.4 低频率点突变检测技术
  • 3.4.1 500个细胞样品HN500的变异筛选
  • 3.4.2 HN500候选变异的验证
  • 3.4.3 片段断点与序列家族
  • 3.4.4 从100个细胞样本CN100中筛选变异
  • 3.4.5 CN100体细胞突变率的估计
  • 4 结论与讨论
  • 4.1 结构变异的高效检测方案
  • 4.2 基于短序列拼接技术的结构变异检测
  • 4.3 超低频变异的检测
  • 4.4 结论
  • 参考文献
  • 附录
  • 附表1 在人类基因组参考序列hg18的限制性内切酶识别位点分析
  • 附表2 使用ditag技术实际检测到的基因组缺失列表
  • 附表3 用于验证ditags测得的基因组缺失的扩增引物列表
  • 1118基因组中检测到的结构变异列表'>附表4 使用虚拟长序列在果蝇w1118基因组中检测到的结构变异列表
  • 附表5 用于验证虚拟长序列所检测的结构变异的扩增引物列表
  • 作者简介及在学期间发表的学术论文与研究成果
  • 作者简历
  • 获奖情况
  • 己发表或正式接受的学术论文
  • 参加的研究项目
  • 相关论文文献

    标签:;  ;  ;  ;  

    基因组变异的深度挖掘
    下载Doc文档

    猜你喜欢