基因组转录调控元件的特征分析与识别算法研究

基因组转录调控元件的特征分析与识别算法研究

论文摘要

探寻基因表达调控的规律是后基因组时代生物信息学的核心问题之一。由于转录是基因表达的第一步,对转录的调控必然成为表达调控的重要形式。基因组中具有调控功能的DNA序列片段可称为转录调控元件。对转录调控元件进行识别与注释,无疑将是研究转录调控规律进而构建表达调控网络的关键步骤。随着生物研究的深入和计算机技术的发展,计算识别的方法已逐渐成为传统实验注释方法的有力辅助工具。然而,现有的转录调控元件识别方法多数只考虑序列的一维组成等有限特征,忽略了许多其他重要信息,致使识别的特异性普遍偏低,假阳性结果过多。在这一背景下,本文以转录调控元件的特征分析和计算识别为主题,提出了由特征选取、特征计算和整合识别三个主要步骤组成的多类特征信息融合识别框架,并基于此框架实现了启动子、内源性终止子和转录因子结合位点三种常见转录调控元件及其相关调控信号的识别算法,主要工作和创新之处包括:(1)启动子的特征分析与识别算法研究。启动子是负责调控转录起始过程的序列元件,本文在深入分析原核和真核启动子多类特征的基础上,提出了一种基于特征筛选与组合的启动子序列判别分析算法。该算法首先在启动子的序列组成、空间构象和能量分布等特征中广泛选取备选特征,为每个备选特征建立适当的描述模型,通过模型计算对其判别力进行评价;然后采用逐步筛选算法从备选特征中遴选出总体判别力最显著的特征组合作为特征集,依照特征集将启动子序列片段表示为组合特征向量的形式;再利用二次判别分析方法实现分类与识别。为了使描述更加准确,还在原核启动子局部信号特征的分析中引入了复合模体的概念,设计了用于搜索和计算二元复合模体的迭代搜索算法OCMISA。在计算真核启动子中位置不定的保守模体时,同样使用了类似的迭代搜索算法。利用此算法,本文在实际数据集上对原核的大肠杆菌σ70启动子和枯草杆菌σA启动子,真核的人类pol II启动子进行了分类识别,获得了明显优于其他几种常用识别方法的性能评价。(2)转录起始位点的定位算法研究。转录起始位点是与启动子有密切关联的调控信号。本文以前面提出的基于特征筛选与组合的启动子识别算法为基础,将其扩展为转录起始位点定位算法。该算法首先根据转录起始位点可能出现位置的先验信息合理确定搜索范围。由于原核转录起始位点的搜索范围较小,故直接将固定的启动子区域改为滑动窗口进行扫描,根据每个位置上的似然得分来确定预测位置。为提高信噪比,特别设计了基于共振原理的窗口交迭组分特征变量和用于最终定位的阈值定位算法,并引入转录起始位点和翻译起始位点间的距离分布信息作为对似然得分的修正。对于真核转录起始位点,由于搜索范围过大导致滑动窗口方法失效,则需根据已知转录起始位点的组成信息来确定备选位点集,仅对定位范围内的备选位点进行计算,利用启动子识别的方法即可实现分类定位。在实际数据集上对定位算法进行测试,其结果与几种常用方法相比,无论是对原核还是真核转录起始位点,特异性都有了较大幅度的提高。(3)内源性终止子的特征分析与识别算法研究。内源性终止子是凭借自身的序列信号即可实现转录终止功能的调控元件。本文在对大肠杆菌和枯草杆菌内源性终止子已有特征进行深入分析和合理综合的基础上,引入序列弯曲度特征,为内源性终止子构建了一个包含序列组成、局部构象和能量分布信息的更为全面的特征集,并在此特征集上分别利用二次判别分析和支持向量机方法实现了内源性终止子的识别算法。在大肠杆菌全基因组限定范围内的搜索预测中,基于新特征集的算法与其他几种典型方法相比,其识别结果的特异性有了明显提高。(4)转录因子结合位点的特征分析与识别算法研究。转录因子结合位点是转录因子与基因组序列结合的靶位点,是最基本的一类调控元件。本文在分析已有方法的基础上,提出了一种融合保守模体和序列局部构象信息的转录因子结合位点搜索识别算法,采用极大相关得分矩阵作为保守模体的描述和计算模型,同时根据二苷参数模型计算序列的局部构象参数,然后利用二次判别分析整合两类信息,最终通过滑动窗口进行识别。作为对常用位置特异得分矩阵模型的扩展,极大相关得分矩阵的核心思想是根据模体位置间的相关性对全部位置进行重新排列,使得新顺序下所有相邻位置间的相关性总和达到最大。位置重排可以将远程相关尽量转化为近邻相关,从而在较低的模型复杂度下即可实现对模体位置间相关性的更加全面地描述。而局部构象参数则作为外源特征被引入,它们是对序列组成信息的有力补充。基于大肠杆菌CRP、Fis和人类HNF4α结合位点数据的测试结果验证了此识别算法的有效性。与其他常用方法相比,识别结果的特异性有了较大的改善。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 引言
  • 1.2 研究背景
  • 1.2.1 生物信号识别的相关方法
  • 1.2.2 模体识别的相关方法
  • 1.3 论文的主要工作与创新
  • 1.4 论文的结构
  • 第二章 基因与基因转录调控
  • 2.1 基因组与基因
  • 2.2 基因的结构与表达
  • 2.3.1 基因的结构
  • 2.3.2 基因的表达
  • 2.3 基因的转录调控
  • 2.4 本章小结
  • 第三章 原核启动子及对应转录起始位点的特征分析与识别
  • 3.1 原核启动子的特征分析与判别
  • 3.1.1 原核启动子相关特征与识别方法综述
  • 3.1.2 数据准备
  • 3.1.3 备选特征的选取与计算
  • 3.1.4 特征的筛选与组合
  • 3.1.5 组合特征向量的判别分析
  • 3.1.6 识别结果与讨论
  • 3.2 原核转录起始位点的计算定位
  • 3.2.1 原核转录起始位点定位方法综述
  • 3.2.2 数据准备
  • 3.2.3 计算定位方法
  • 3.2.4 定位结果与讨论
  • 3.3 本章小结
  • 第四章 真核启动子及对应转录起始位点的特征分析与识别
  • 4.1 真核启动子的相关特征与识别方法综述
  • 4.2 真核启动子的特征分析与判别
  • 4.2.1 数据准备
  • 4.2.2 备选特征的选取与计算
  • 4.2.3 特征的筛选与组合
  • 4.2.4 组合特征向量的二次判别分析
  • 4.2.5 识别结果与讨论
  • 4.3 真核转录起始位点的计算定位
  • 4.3.1 方法与数据
  • 4.3.2 定位结果与讨论
  • 4.4 本章小结
  • 第五章 内源性转录终止子的特征分析与识别
  • 5.1 内源性终止子相关特征与识别方法综述
  • 5.2 数据集的选取与分析
  • 5.2.1 内源性终止子数据集的选取
  • 5.2.2 内源性终止子数据集的初步分析
  • 5.2.3 阴性数据集的选取
  • 5.3 特征集的选取与评价
  • 5.3.1 内源性终止子特征集的选取
  • 5.3.2 内源性终止子特征集的计算
  • 5.3.3 特征的评价
  • 5.4 支持向量机分类器
  • 5.4.1 最优分类面
  • 5.4.2 广义最优分类面
  • 5.4.3 核函数
  • 5.5 识别结果与讨论
  • 5.5.1 交叉验证测试
  • 5.5.2 全基因组搜索预测
  • 5.6 本章小结
  • 第六章 转录因子结合位点的特征分析与识别
  • 6.1 转录因子结合位点相关特征与识别方法综述
  • 6.1.1 基于保守模体的方法
  • 6.1.2 基于比较基因组学的方法
  • 6.2 数据准备
  • 6.3 模型与方法
  • 6.3.1 识别算法的总体流程
  • 6.3.2 保守模体的核心区域
  • 6.3.3 极大相关得分矩阵模型
  • 6.3.4 局部构象特征信息
  • 6.3.5 二次判别分析与阈值定位
  • 6.4 识别结果与讨论
  • 6.4.1 评价指标
  • 6.4.2 刀切法测试结果
  • 6.4.3 对算法的进一步分析
  • 6.5 本章小结
  • 第七章 总结与展望
  • 7.1 论文工作总结
  • 7.2 未来工作展望
  • 致谢
  • 参考文献
  • 作者在攻读博士期间撰写的论文
  • 附录A 碱基的IUPAC-IUB 编码表
  • 附录B 序列结构模型参数表
  • 相关论文文献

    • [1].转录调控网络模块和模体识别算法研究进展[J]. 计算机应用研究 2012(11)
    • [2].酿酒酵母转录调控位点生物信息学研究进展[J]. 生物技术世界 2013(03)
    • [3].全局转录调控及其在代谢工程中的应用[J]. 生物技术通讯 2009(05)
    • [4].预测转录调控模块的数学模型[J]. 中山大学学报(医学科学版) 2009(S1)
    • [5].预测转录调控模块的数学模型[J]. 中山大学学报(医学科学版) 2009(S3)
    • [6].整合素β6基因在HepG2细胞中主要转录调控区的定位分析[J]. 中华普通外科学文献(电子版) 2013(02)
    • [7].利用比较基因组学方法预测短小芽孢杆菌转录调控网络[J]. 四川大学学报(自然科学版) 2012(01)
    • [8].肿瘤相关基因转录调控蛋白的识别与研究进展[J]. 中国实验诊断学 2010(04)
    • [9].肝脏特异性转录调控序列的研究进展[J]. 生物医学工程学杂志 2009(02)
    • [10].酵母转录调控协作网络的分析(英文)[J]. 生物化学与生物物理进展 2008(01)
    • [11].基于组合模型的转录调控网络构建算法研究[J]. 计算机科学与探索 2018(07)
    • [12].基因组转录调控元件分析方法研究进展[J]. 生物技术通报 2014(10)
    • [13].基因非编码区与转录调控元件的识别研究[J]. 生物信息学 2008(04)
    • [14].下一代测序技术在干细胞转录调控研究中的应用[J]. 遗传 2017(08)
    • [15].植物冷驯化转录调控的影响因素[J]. 黑龙江农业科学 2019(04)
    • [16].植物萜烯类合成的转录调控研究进展[J]. 山西农业科学 2020(10)
    • [17].Visfatin基因的转录调控及糖异生的调控作用[J]. 畜牧与兽医 2012(S1)
    • [18].嗜水气单胞菌转录调控蛋白基因的克隆与序列分析[J]. 生物技术通报 2014(07)
    • [19].中国科学院植物研究科研人员揭示叶绿体基因转录调控的新机制[J]. 蔬菜 2019(06)
    • [20].植物对非生物逆境响应的转录调控和代谢谱分析的研究进展[J]. 植物生理学报 2011(05)
    • [21].一个功能丰富的转录调控分子——下游调控元件拮抗分子[J]. 生理学报 2017(05)
    • [22].基于矩阵分解技术的系统性红斑狼疮转录调控网络构建[J]. 河北师范大学学报(自然科学版) 2016(02)
    • [23].Lennox-Gastaut综合征相关致病基因研究进展[J]. 山东医药 2020(20)
    • [24].基于转录调控元件设计的高级生物化学实验教学[J]. 实验室研究与探索 2019(11)
    • [25].LncRNA HOTAIR在肿瘤中转录调控及作用机制的研究进展[J]. 医学综述 2019(09)
    • [26].猪MITF-M的转录调控分析[J]. 畜牧兽医学报 2018(11)
    • [27].COBRA框架在转录调控、转录翻译和信号传导网络上的应用研究[J]. 计算机应用与软件 2011(11)
    • [28].Foxp3转录调控的研究进展[J]. 中国病原生物学杂志 2016(05)
    • [29].北极狐MITF-M基因启动子活性及转录调控元件的分析[J]. 中国兽医学报 2020(10)
    • [30].真菌次级代谢转录调控研究进展[J]. 菌物研究 2019(03)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    基因组转录调控元件的特征分析与识别算法研究
    下载Doc文档

    猜你喜欢