论文题目: 转录因子结合位点预测算法的研究与应用
论文类型: 博士论文
论文专业: 计算数学
作者: 徐东
导师: 王翼飞
关键词: 基因表达调控,转录因子结合位点,过度预测,人工神经网络,交叉熵,隐马氏模型,似然比检验
文献来源: 上海大学
发表年度: 2005
论文摘要: 人类已经步入后基因组时代。随着对基因研究的不断深入,了解基因表达调控机制特别是转录调控机制的需求就显得尤为迫切起来。这是因为,基因是细胞生命活动的基础。在同一生物体内,每个细胞都有一套完全相同的基因组。但是在不同的条件下,基因的表达水平不尽相同,这种行为限定了细胞中的RNA组成,进而影响到最终所能产生出的全部蛋白质,从而决定了该细胞的功能。转录过程既是DNA翻译成蛋白质的关键一步,同时也是调控基因表达的关键阶段。转录调控通常是在转录起始步骤实现的。除了启动子以外,在几乎所有基因的上游区域中都还存在着激活基因所需的一段特定的DNA序列(转录因子结合位点)。这些序列本身并不执行任何功能,只有当其被调控蛋白(转录因子)识别、结合后才能发挥作用。它们共同控制着基因的转录。转录因子与其结合位点的结合具有高度的专一性。研究转录因子就是研究转录调控的分子机制,研究一类特定的蛋白质分子与DNA序列的结合特性,研究与DNA结合的蛋白质是如何调控基因转录等问题。因此,鉴别出全部与特定转录因子结合的DNA序列的特征,有助于对转录因子性质的进一步研究。目前,一些实验已经证实在真核细胞中,特别是在高等生物体内,在多数情况下转录因子并不是独自发挥作用,而是与其它转录因子协同作用,共同影响靶基因的表达。因此,对多转录因子协同DNA结合位点的研究正在成为一个新的亮点。利用现代分子生物学实验技术,例如凝胶阻滞实验、足迹法等,可以逐一鉴别出与特定转录因子结合的DNA序列片段。但是,单纯依靠这类技术来对几百个或上千条潜在的结合位点进行检测,科研人员将不得不付出极大的代价。因此,在基因组水平上对潜在的转录因子结合位点进行识别、筛选的生物信息学技术已经成为一项非常有效的辅助手段。不过在实际使用过程中,过度预测问题的存在已经严重地制约了这些算法的发展。在生物信息学领域中,人工神经网络、隐马氏模型已经成为解决序列分析和模式识别问题的重要工具之一。在文中,我们对转录因子结合位点预测算法的发展历程进行了回顾;讨论了人工神经网络、隐马氏模型应用于该领域时所具有的
论文目录:
摘要
Abstract
第一章 绪论
1.1 生物信息学简介
1.1.1 人类基因组计划
1.1.2 基因组学
1.1.3 生物信息学
1.2 基因表达调控
1.2.1 基因表达
1.2.2 基因表达调控
1.3 转录因子结合位点预测算法的研究与意义
1.4 论文工作与安排
第二章 基于自由能最小原则的BSS 算法
2.1 共有序列与权重矩阵
2.2 热力学原理
2.2.1 热力学第一定律:能量守恒
2.2.2 热力学第二定律:熵趋向增加
2.2.3 自由能
2.3 BSS 算法
2.4 实验数据
2.5 结果与讨论
2.6 本章小结
第三章 人工神经网络
3.1 人工神经网络简介
3.2 神经细胞与人工神经元模型
3.3 网络结构与工作方式
3.3.1 前馈网络
3.3.2 反馈网络
3.3.3 工作方式
3.4 学习规则与学习方式
3.4.1 学习规则
3.4.2 学习方式
3.5 BP 神经网络
3.5.1 反向转播算法
3.5.2 BP 神经网络存在的两个主要问题
3.6 其他常见的神经网络模型
3.6.1 Hopfield 网络
3.6.2 径向基神经网络
3.6.3 模糊神经网络
3.6.4 小波神经网络
3.6.5 支持向量机
3.7 人工神经网络在生物信息学中的应用
3.8 生物序列编码问题
3.9 本章小结
第四章 基于交叉熵原则的ANN-CE 算法
4.1 神经网络中的误差函数
4.1.1 误差平方和原则
4.1.2 交叉熵
4.1.3 两类分类器
4.1.4 交叉熵的性质
4.2 基于交叉熵原则的ANN-CE 算法
4.2.1 网络结构
4.2.2 算法
4.2.3 预测结果评估准则
4.3 实验数据
4.4 结果与讨论
4.5 本章小结
第五章 隐马氏模型
5.1 马尔可夫模型
5.2 隐马氏模型
5.3 隐马氏模型解决的三个问题及其基本算法
5.3.1 前向算法与后向算法
5.3.2 Viterbi 算法
5.3.3 Baum-Welch(EM)算法及其改进
5.4 生物信息学中的隐马氏模型
5.4.1 生物序列的隐马氏模型
5.4.2 剖面隐马氏模型
5.4.3 基因发现器隐马氏模型
5.4.4 跨膜蛋白结构预测隐马氏模型
5.4.5 隐马氏模型的优点和局限性
5.5 本章小结
第六章 基于隐马氏模型的BssHMMs 预测算法
6.1 相关位置得分矩阵
6.1.1 卡方分布
6.1.2 分类数据检验问题
6.1.3 分类数据的χ~2 检验
6.1.4 分类数据的似然比检验
6.1.5 列联表的检验问题
6.1.6 相关位置得分矩阵
6.2 BssHMMs 算法
6.2.1 一阶BssHMMs 算法
6.2.2 三阶BssHMMs 算法
6.2.3 预测结果评估准则
6.3 实验数据
6.4 结果与讨论
6.5 本章小结
第七章 转录因子结合位点预测工具
7.1 BSDbase 数据库
7.1.1 数据库的结构和内容
7.2 转录因子结合位点预测软件——ANN-CE~(TM)
7.2.1 ANN-CE~(TM) 的总体框架
7.2.2 ANN-CE~(TM) 软件的运行过程
7.3 转录因子结合位点挖掘器软件——TFBsMD
7.3.1 TFBsMD 的预测方法
7.3.2 TFBsMD 的功能简介
7.3.3 TFBsMD 的桌面环境
7.3.4 计算实验
7.4 本章小结
第八章 总结与展望
8.1 论文工作的总结
8.2 存在的问题和展望
参考文献
攻读博士学位期间发表的论文和完成的专利
致谢
发表意见书
博硕士学位论文同意发表声明
发布时间: 2006-12-12
参考文献
- [1].基于新型表达模式的序列特征获取方法及应用研究[D]. 向其林.湖南大学2017
- [2].基于序列特征的宏基因组数据分析方法研究[D]. 丁啸.东南大学2016
- [3].基于基因表达谱及序列特征的转录调控关系挖掘[D]. 刘万霖.中国人民解放军军事医学科学院2010
- [4].siRNA设计中若干关键问题的研究[D]. 常亚萍.吉林大学2013
- [5].我国幽门螺杆菌cagPAI序列特征分析及致炎机制研究[D]. 王海滨.中国疾病预防控制中心2010
- [6].小鼠及人顺式作用元件CArG序列特征及进化研究[D]. 沈霞.西北农林科技大学2009
- [7].生物序列特征信息提取方法及其应用[D]. 余宏杰.中国科学技术大学2013
相关论文
- [1].转录因子结合位点识别问题的算法研究[D]. 张懿璞.西安电子科技大学2014
- [2].转录因子结合位点和动物毒素的分析与预测[D]. 杨磊.内蒙古大学2010
- [3].真核启动子预测[D]. 熊清.重庆大学2004
- [4].基于蛋白质序列和生物医学文献的蛋白质功能挖掘[D]. 俞晓晶.中国科学院研究生院(上海生命科学研究院)2006
- [5].RNA二级结构预测的建模及其应用研究[D]. 刘海军.上海大学2005
- [6].基于生物信息学方法分析基因家族及非编码序列的研究[D]. 汪旭升.浙江大学2006
- [7].小鼠bHLH转录因子家族预测及其大脑调控网络的构建[D]. 李婧.上海交通大学2007
- [8].基因组转录调控元件的特征分析与识别算法研究[D]. 杜耀华.国防科学技术大学2006
标签:基因表达调控论文; 转录因子结合位点论文; 过度预测论文; 人工神经网络论文; 交叉熵论文; 隐马氏模型论文; 似然比检验论文;