转录调控序列数据挖掘研究与实现

转录调控序列数据挖掘研究与实现

论文摘要

在功能基因组学中,理解高等生物的调控机制是当前研究面临的重要挑战。转录因子是一种特殊蛋白质,通过与基因上游的顺式调控元件结合,最终调控了基因的表达。因此,识别转录因子以及顺式调控元件,是理解基因表达的先决条件。传统的采用实验生物学手段来识别转录调控序列(主要有转录因子、顺式调控元件)的方法代价较高,因此,研究者开始采用计算生物学手段预测转录调控序列,然后针对预测结果再进行生物学实验,以提高识别的效率。然而现有的方法存在一些问题,针对这些问题提出新的方法以改进预测效果是当前研究的热点。本文分析了当前转录调控序列预测算法的现状,针对现有算法的不足,研究转录调控序列的生物学特点,结合转录调控领域知识,提出了新的转录因子及顺式调控元件的数据挖掘算法,设计并实现了转录调控序列数据挖掘系统TBMiner。主要研究成果如下:1.提出了一个基于支持向量机的转录因子数据挖掘算法,该算法将蛋白质功能域作为向量来表示转录因子,利用支持向量机对由转录因子和非转录因子样本构成的正负样本集进行训练得到分类模型,该模型用来预测蛋白序列是否为转录因子并判断其所属类别,改善了当前算法存在的推广能力不足的问题。2.提出了一个采用多项式核函数的半监督支持向量机顺式调控元件预测算法。传统的顺式调控元件预测方法只考虑单碱基的频率,而实际上顺式调控元件的碱基间往往存在着复杂的联系。本文利用多项式核函数获取顺式调控元件上碱基间的依赖关系,从而更好的学习到顺式调控元件的特征,这些特征显著地改善了顺式调控元件的预测效果。同时核函数避免了显式的空间变换,大大提高了计算效率。3.设计和实现了转录调控序列数据挖掘系统TBMiner。TBMiner系统整合了当前常用的生物序列模式发现算法MEME和AlignACE,并实现了上述的转录因子及顺式调控元件的预测算法。用户可以调整不同的参数以获得最佳的效果,为生物学家进行转录调控规律研究提供了良好的生物信息学工具。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.1.1 生物信息学
  • 1.1.2 生物数据挖掘
  • 1.1.3 转录调控序列挖掘
  • 1.2 研究意义
  • 1.3 本文工作
  • 1.4 文章结构
  • 第2章 转录调控序列数据挖掘的研究现状
  • 2.1 生物学背景
  • 2.2 转录因子识别和分类
  • 2.2.1 KNN方法
  • 2.2.2 HMM方法
  • 2.3 顺式调控元件挖掘
  • 2.3.1 基于字串的算法
  • 2.3.2 基于概率模型的方法
  • 2.4 本章小结
  • 第3章 基于支持向量机的转录因子识别和分类方法
  • 3.1 转录因子概述
  • 3.2 转录因子识别和分类问题分析
  • 3.3 基于支持向量机的转录因子识别和分类算法
  • 3.3.1 问题定义
  • 3.3.2 算法描述
  • 3.4 实验
  • 3.4.1 数据来源
  • 3.4.2 算法准确率等相关性能比较
  • 3.4.3 算法推广能力比较
  • 3.4.4 实验结果分析
  • 3.5 本章小结
  • 第4章 基于半监督支持向量机的顺式调控元件挖掘
  • 4.1 顺式调控元件挖掘问题分析
  • 4.2 半监督支持向量机
  • 4.3 顺式调控元件识别
  • 4.3.1 数据集
  • 4.3.2 训练和测试
  • 4.3.3 算法评测工具及指标
  • 4.3.4 编码方法
  • 4.3.5 核函数
  • 4.4 实验
  • 4.4.1 MEME和AlignACE的评估
  • 4.4.2 Match的评估
  • 3VMBSP的评估与对比'>4.4.3 S3VMBSP的评估与对比
  • 4.5 本章小结
  • 第5章 转录调控序列数据挖掘系统TBMiner
  • 5.1 转录调控序列数据挖掘系统概述
  • 5.2 系统功能和实现
  • 5.2.1 顺式调控元件挖掘工具
  • 5.2.2 转录因子挖掘工具
  • 5.3 本章小结
  • 第6章 总结与展望
  • 6.1 总结
  • 6.2 研究展望
  • 参考文献
  • 附录
  • A 发表论文
  • B 参加项目
  • 致谢
  • 相关论文文献

    • [1].转录调控网络模块和模体识别算法研究进展[J]. 计算机应用研究 2012(11)
    • [2].酿酒酵母转录调控位点生物信息学研究进展[J]. 生物技术世界 2013(03)
    • [3].全局转录调控及其在代谢工程中的应用[J]. 生物技术通讯 2009(05)
    • [4].预测转录调控模块的数学模型[J]. 中山大学学报(医学科学版) 2009(S1)
    • [5].预测转录调控模块的数学模型[J]. 中山大学学报(医学科学版) 2009(S3)
    • [6].整合素β6基因在HepG2细胞中主要转录调控区的定位分析[J]. 中华普通外科学文献(电子版) 2013(02)
    • [7].利用比较基因组学方法预测短小芽孢杆菌转录调控网络[J]. 四川大学学报(自然科学版) 2012(01)
    • [8].肿瘤相关基因转录调控蛋白的识别与研究进展[J]. 中国实验诊断学 2010(04)
    • [9].肝脏特异性转录调控序列的研究进展[J]. 生物医学工程学杂志 2009(02)
    • [10].酵母转录调控协作网络的分析(英文)[J]. 生物化学与生物物理进展 2008(01)
    • [11].基于组合模型的转录调控网络构建算法研究[J]. 计算机科学与探索 2018(07)
    • [12].基因组转录调控元件分析方法研究进展[J]. 生物技术通报 2014(10)
    • [13].基因非编码区与转录调控元件的识别研究[J]. 生物信息学 2008(04)
    • [14].下一代测序技术在干细胞转录调控研究中的应用[J]. 遗传 2017(08)
    • [15].植物冷驯化转录调控的影响因素[J]. 黑龙江农业科学 2019(04)
    • [16].植物萜烯类合成的转录调控研究进展[J]. 山西农业科学 2020(10)
    • [17].Visfatin基因的转录调控及糖异生的调控作用[J]. 畜牧与兽医 2012(S1)
    • [18].嗜水气单胞菌转录调控蛋白基因的克隆与序列分析[J]. 生物技术通报 2014(07)
    • [19].中国科学院植物研究科研人员揭示叶绿体基因转录调控的新机制[J]. 蔬菜 2019(06)
    • [20].植物对非生物逆境响应的转录调控和代谢谱分析的研究进展[J]. 植物生理学报 2011(05)
    • [21].一个功能丰富的转录调控分子——下游调控元件拮抗分子[J]. 生理学报 2017(05)
    • [22].基于矩阵分解技术的系统性红斑狼疮转录调控网络构建[J]. 河北师范大学学报(自然科学版) 2016(02)
    • [23].Lennox-Gastaut综合征相关致病基因研究进展[J]. 山东医药 2020(20)
    • [24].基于转录调控元件设计的高级生物化学实验教学[J]. 实验室研究与探索 2019(11)
    • [25].LncRNA HOTAIR在肿瘤中转录调控及作用机制的研究进展[J]. 医学综述 2019(09)
    • [26].猪MITF-M的转录调控分析[J]. 畜牧兽医学报 2018(11)
    • [27].COBRA框架在转录调控、转录翻译和信号传导网络上的应用研究[J]. 计算机应用与软件 2011(11)
    • [28].Foxp3转录调控的研究进展[J]. 中国病原生物学杂志 2016(05)
    • [29].北极狐MITF-M基因启动子活性及转录调控元件的分析[J]. 中国兽医学报 2020(10)
    • [30].真菌次级代谢转录调控研究进展[J]. 菌物研究 2019(03)

    标签:;  ;  ;  ;  ;  ;  

    转录调控序列数据挖掘研究与实现
    下载Doc文档

    猜你喜欢