论文摘要
研究真核生物转录调控信号的编码方式是理解多细胞复杂性的起源的关键所在;然而,人们对于真核生物基因调控的遗传编码方式仍然知之甚少。全面认识启动子在转录调控中的作用是准确重建基因调控网络的必需。为此,展开了关于近端启动子与其下游基因在79个人类组织上的表达水平的关系的研究。首先,构建了含有下游基因表达量信息的启动子数据集。使用GNF Atlas2基因表达谱数据以及来源于DBTSS的启动子数据对各组织构建了一套含有2000条启动子序列的正、负数据集。然后,分析了启动子序列及元件的统计特征与基因表达水平的关系。结果表明,使用六联体使用频率以及7种常见的核心启动子元件的出现频率作为特征可以区分高表达基因与低表达基因所对应的启动子;进而,研制了基于启动子序列及元件信息预测基因的组织差异表达的系统——DEPS。对79个人类组织的5重交叉验证测试结果显示,DEPS的平均敏感度、专一度、精确度和准确度分别达到了76.1%、76.5%、76.5%和76.3%。并且,DEPS在28个终端分化组织上的预测结果均优于仅采用反式元件信息进行建模的国外相关研究结果。此外,对系统的各模型在其它组织上的预测效果进行了评估,结果显示了模型具有组织特异性,并为研究功能相关的组织提供了线索。