人类基因组转录调节模体距离保守性的研究与转录起始位点的预测

人类基因组转录调节模体距离保守性的研究与转录起始位点的预测

论文摘要

对人类基因组转录调节相互作用网络的理解,是现代分子生物学面临的一个直接的挑战。这里的一个中心问题是,如何从近邻物种的启动子的比较,来提取进化信息和搜索进化保守性。通过对人类转录因子结合位点(transcriptionfactor binding site,TFBS)序列中的核苷k联体(k-mer)在人类和小鼠中分布的比较,我们发现一对转录调节7-mer模体(motif)之间的平均距离在人类和小鼠启动子中是保守的。我们称这种保守性为“距离保守性”。这个距离保守性是一种新的进化保守性,不依赖于碱基在基因组序列中的严格定位。利用这种k-mer距离保守性可以发展非联配方法来实现在基因组范围快速地发现转录调节模体。本文中,我们用距离保守性在基因组范围对保守转录调节模体进行搜索,成功率为90%。另外,作为对距离保守性的进一步检验,我们研究了人类组织特异性的转录调节模体对(motif pair),发现在由距离参数构成的2维空间中,对于28个组织,模体对可以显著地区别于其对照。据此,我们由距离参数构成特征向量,采用Fisher判别分析对人类28个组织的顶上140对转录调节模体的最可几对进行了预测。本文的另一个关于转录调节的相关工作是人类基因组转录起始位点(transcription start sites,TSS)的预测。启动子序列和转录起始位点的精确识别对于解释人类转录调节网络是至关重要的。随着统计理论的发展和机器学习算法在生物信息学预测方面的成功应用,发展新的高效的理论预测模型,在基因组尺度对转录起始位点进行辅助注释,已经成为当今生物信息学发展的主流方向之一。UCSC(University of California Santa Cruz)基因组浏览网站就接受了诸多的基因预测模型,作为基因组尺度的基因辅助注释工具。本文中,我们应用多样性增量结合二次判别分析(Increment of Diversity with Quadratic Discriminantanalysis,IDQD)方法对人类基因组转录起始位点进行了预测。在典型的TSS数据集上,正负集数据比为1:58的情形下,我们的预测结果敏感性和阳性预报值均高于65%。使用ROC和PRC评估算法性能,在正负集数据比分别为1:679和1:113的情形下,auROC均高于96%,auPRC分别为26%和64%。对4、21和22号染色体的全基因组搜索,我们预测了单一启动子和可变启动子5’端的第一个TSS,在正负集数据比分别为1:138和1:68的情形下,auROC分别为93%和97%,auPRC分别为40%和65%。以上结果在相同口径下优于最新报道的国外SVM预测精度。我们的结果显示,多样性增量结合二次判别分析(IDQD)方法有能力解决复杂的生物信息学分类问题。IDQD算法程序即及人类基因组TSS预测的相关数据资料可以在网址http://jichubu.imut.edu.cn/IDQD/idqd.htm找到。全文共分5章,第一章到第三章主要是讨论距离保守性问题,第四章和第五章讨论IDQD算法以及该算法在人类基因组转录起始位点预测问题中的应用。其中,第一章提出距离保守性概念,第二章应用距离保守性概念提出一个非联配的转录调节模体预测模型,给出距离保守性的第一个检验实例。第三章应用距离保守性概念对人类组织特异性转录调节模体对进行预测,给出距离保守性的第二个检验实例。第四章,详细描述IDQD算法,第五章,应用IDQD算法对人类基因组转录起始位点进行预测。

论文目录

  • 摘要
  • ABSTRACT
  • 引言
  • 第一章 距离保守性
  • 第一节 距离保守性的发现
  • 1.1 引言
  • 1.2 数据准备
  • 1.2.1 数据集
  • 1.2.2 TFBS中的7-mers分类
  • 1.3 7-mer对距离保守性的发现
  • 第二节 NT集搜索算法
  • 第二章 7-mer集上的距离保守性检验
  • 第一节 引言
  • 第二节 距离保守的调节模体搜索(DCRMS)算法
  • 2.1 DCRMS算法的基本思想
  • 2.2 距离参数的定义
  • 2.3 二次判别分析(Quadratic Discriminant Analysis,QDA)
  • 第三节 距离保守的调节模体预测
  • 3.1 Ps和Nt集中的检验结果
  • 3.2 Pc集和Nf集中的预测结果
  • 第四节 讨论
  • 4.1 k-mer对保守性机制的分析
  • 4.2 距离保守性的讨论
  • 第三章 组织特异性模体对的距离保守性检验
  • 第一节 人类组织特异模体对数据
  • 第二节 人类组织特异模体对识别的参数定义
  • 2.1 距离分歧参数定义
  • 2.2 Fisher线性判别
  • 第三节 距离分歧参数在28个组织中的统计
  • 3.1 距离分歧参数的统计
  • 第四节 组织特异转录调节模体对的识别
  • 4.1 28个组织中的自洽检验
  • 4.2 人类组织特异性模体对的识别
  • 第五节 讨论
  • 5.1 为什么选择7-mer?
  • 5.2 随机涨落
  • 5.3 组织特异模体对注释
  • 第六节 小结
  • 第四章 IDQD算法
  • 第一节 算法描述
  • 1.1 ID算法
  • 1.2 ID算法评价
  • 1.3 QD算法
  • 第二节 讨论
  • 2.1 ID算法的理论基础——信息极大化原理
  • 2.1.1 信息极大化——信息生物学的一条基本原理
  • 2.1.2 信息极大化原理的证据
  • 0的确定'>2.2 QD中分类阈值ξ0的确定
  • 第三节 小结
  • 第五章 人类基因组转录起始位点的预测
  • 第一节 引言
  • 第二节 数据集
  • 2.1 典型TSS预测数据集
  • 2.2 全基因组TSS预测数据集
  • 第三节 ID参数定义
  • 第四节 结果
  • 4.1 典型TSS预测结果
  • 4.2 全基因组TSS预测结果
  • 第五节 讨论
  • 5.1 TSS识别中ID参数分析
  • 5.2 关于可变启动子
  • 5.3 染色质重塑与转录起始
  • 第六节 小结
  • 参考文献
  • 附录1 附表
  • 附录2 附图
  • 致谢
  • 作者论文目录
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    人类基因组转录调节模体距离保守性的研究与转录起始位点的预测
    下载Doc文档

    猜你喜欢