基于启动子信息预测人类基因的组织差异表达

基于启动子信息预测人类基因的组织差异表达

论文摘要

研究真核生物转录调控信号的编码方式是理解多细胞复杂性的起源的关键所在;然而,人们对于真核生物基因调控的遗传编码方式仍然知之甚少。全面认识启动子在转录调控中的作用是准确重建基因调控网络的必需。为此,展开了关于近端启动子与其下游基因在79个人类组织上的表达水平的关系的研究。首先,构建了含有下游基因表达量信息的启动子数据集。使用GNF Atlas2基因表达谱数据以及来源于DBTSS的启动子数据对各组织构建了一套含有2000条启动子序列的正、负数据集。然后,分析了启动子序列及元件的统计特征与基因表达水平的关系。结果表明,使用六联体使用频率以及7种常见的核心启动子元件的出现频率作为特征可以区分高表达基因与低表达基因所对应的启动子;进而,研制了基于启动子序列及元件信息预测基因的组织差异表达的系统——DEPS。对79个人类组织的5重交叉验证测试结果显示,DEPS的平均敏感度、专一度、精确度和准确度分别达到了76.1%、76.5%、76.5%和76.3%。并且,DEPS在28个终端分化组织上的预测结果均优于仅采用反式元件信息进行建模的国外相关研究结果。此外,对系统的各模型在其它组织上的预测效果进行了评估,结果显示了模型具有组织特异性,并为研究功能相关的组织提供了线索。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 课题来源
  • 1.2 研究背景、目的与意义
  • 1.3 国内外研究状况
  • 1.4 主要研究工作
  • 1.5 本文内容安排
  • 2 启动子数据集的构建
  • 2.1 前言
  • 2.2 数据来源介绍
  • 2.3 数据集构建
  • 2.4 本章小结
  • 3 组织差异表达基因的启动子的特征分析
  • 3.1 前言
  • 3.2 序列统计特征分析
  • 3.3 启动子中常见的DNA 元件
  • 3.4 几种启动子元件在数据集中的分布
  • 3.6 本章小结
  • 4 基于启动子信息的组织差异表达预测系统(DEP
  • 4.1 前言
  • 4.2 DEPS 的系统框架
  • 4.3 特征提取及特征编码
  • 4.4 支持向量机方法
  • 4.5 预测结果及分析
  • 4.6 本章小结
  • 5 总结与展望
  • 致谢
  • 参考文献
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于启动子信息预测人类基因的组织差异表达
    下载Doc文档

    猜你喜欢