论文题目: 基于结构数据的转录因子结合位点分析
论文类型: 硕士论文
论文专业: 生物医学工程
作者: 汤丽华
导师: 孙啸
关键词: 基因调控,蛋白核酸复合物,转录因子,结合位点,人工神经网络,支持向量机
文献来源: 东南大学
发表年度: 2005
论文摘要: 基因是遗传信息的物理和功能单位,基因功能的体现取决于其结构和表达调控状况。基因表达的调控就是把这些基因结构变换成多种多样基因功能的操作者。因此基因表达调控研究对揭示生命的奥秘具有重大意义。mRNA转录起始调控是调控的基本控制点,也是最重要的一环,其实质是转录因子结合相应的调控元件,影响了RNA聚合酶的活性,从而影响了基因的转录水平。针对目前国际上从结构角度研究较少的情况,本文从蛋白-核酸复合物的结构数据出发,分析氨基酸-碱基作用对,探索转录因子结合位点的预测方法。本文从PDB大分子结构数据库中查寻出所有记录的蛋白-核酸复合物。利用复合物作用力计算软件,对这些蛋白-核酸复合物的三维空间结构数据进行处理,得到复合物中可能存在的氨基酸侧链同核酸之间的作用对。然后依据SWISSPROT数据库对蛋白的注释,分成与调控过程相关的复合物集合和与调控无关的复合物集合。我们对蛋白-核酸复合物中的氨基酸侧链同核酸之间的作用对(包括氢键跟非键作用)进行统计分析。通过分析DNA跟转录因子的氨基酸残基作用的局部环境信息,发现一些三联或者五联残基片段总是结合DNA,因此我们提出猜想:在转录相关的蛋白-核酸复合物中,氨基酸残基环境或者碱基环境在一定程度上决定了中央残基或者碱基是否为作用位点。对非冗余的蛋白-核酸复合物数据集进行数据处理,提取结合序列和作用位点信息,用机器学习的方法初步探索了蛋白同核酸作用的结合模式。建立了一个反向传播神经网络,充分利用蛋白同核酸结合的信息,不断调整参数,反复进行训练学习,对DNA结合蛋白的结合残基进行了预测,发现局部环境信息能够以65.85%的NP较好地预测给出蛋白的结合残基。我们用支持向量机对结合碱基进行预测,选择不同窗宽和参数对数据进行训练和预测,并与神经网络方法进行比较,发现11个窗口长度的碱基环境的预测性能相对较好。使用径向基核函数,支持向量机成功预测为结合碱基的比例能达到89.72%,敏感性能达到66.71%。最后,我们对两种方法进行了比较,发现支持向量机预测结合碱基较为成功。本文利用蛋白-核酸复合物作用对数据,用机器学习的方法初步探索了蛋白同核酸作用的结合模式,证明了在转录相关的蛋白-核酸复合物中,局部残基环境或者碱基环境在一定程度上决定了中央残基或者碱基是否为作用位点。
论文目录:
中文摘要
Abstract
第一章 绪论
1.1 基因表达调控原理
1.1.1 基因表达
1.1.2 基因调控
1.2 调控元件预测
1.2.1 预测调控元件的数据
1.2.2 预测调控元件的算法
1.3 机器学习
1.4 课题研究内容
第二章 蛋白-核酸复合物的研究与数据处理
2.1 蛋白-核酸复合物的空间结构
2.1.1 脱氧核糖核酸(DNA)的空间结构
2.1.2 蛋白质的空间结构
2.1.3 蛋白与核酸结合
2.2 蛋白-核酸复合物中作用力的计算
2.2.1 蛋白-核酸复合物的数据来源
2.2.2 计算蛋白-核酸复合物中作用力的软件
2.3 实验所用数据集
2.3.1 蛋白-核酸复合物的分类
2.3.2 实验所用的数据集
2.4 氨基酸-碱基作用对统计分析
2.4.1 蛋白-核酸复合物中的作用对
2.4.2 蛋白-核酸复合物中的局部环境信息统计与分析
2.5 样本预处理
第三章 用神经网络预测结合残基
3.1 方法概述
3.2 MATLAB 神经网络工具箱
3.2.1 MATLAB 神经网络工具箱简介
3.2.2 用MATLAB 中的神经网络工具箱进行BP 网络设计的基本步骤
3.3 BP 网络预测结合残基
3.3.1 BP 网络设计与训练
3.3.2 BP 算法的分析与改进
3.3.3 神经网络的性能指标
3.3.4 结果分析与讨论
3.3.5 用神经网络预测结合碱基
第四章 用支持向量机预测结合碱基
4.1 支持向量机
4.1.1 支持向量机的基本思想
4.1.2 支持向量机的基本算法
4.2 统计分析以及特征序列的提取
4.2.1 数据集与样本与处理
4.2.2 特征向量的统计分析
4.2.3 预测评价方法
4.3 结果与讨论
4.3.1 支持向量机的软件
4.3.2 支持向量机参数的选取
4.3.3 窗宽对分类结果的影响
4.3.4 两种方法预测结合碱基的比较
4.3.5 用支持向量机预测结合残基
4.3.6 分析和讨论
第五章 总结和展望
5.1 论文总结
5.2 工作展望
参考文献
致谢
发布时间: 2007-06-11
参考文献
- [1].丙型肝炎病毒核心蛋白核酸适体抗病毒作用机制[D]. 石沙丽.湖南大学2013
- [2].核酸适体在蛋白质和小分子检测中的新方法研究[D]. 胡鹏.湖南大学2010
- [3].基于“裂开型”核酸适体高灵敏检测生物小分子的研究[D]. 黄佳浩.湖南大学2010
- [4].基于微流控芯片的肌红蛋白特异性核酸适体的筛选[D]. 邢煜骞.湖南大学2012
- [5].丙型肝炎病毒非结构蛋白NS2的核酸适体对病毒生活周期的影响[D]. 周菲.湖南大学2012
- [6].基于场放大富集的毛细管凝胶电泳紫外检测核酸灵敏度研究[D]. 连冬生.华南理工大学2010
- [7].核酸免疫制备肝特异性F蛋白抗体的初步研究[D]. 王彦春.天津医科大学2010
相关论文
- [1].新型转录因子Mdfic的原核表达、抗体制备以及组织分布研究[D]. 黄晓峰.暨南大学2007
- [2].转录因子结合位点的遗传算法搜索及其改进算法[D]. 牛猛.吉林大学2008
- [3].酵母基因上游转录因子结合位点分布的统计分析[D]. 梁丽静.西北农林科技大学2008
- [4].一种基于遗传算法的转录因子结合位点识别方法[D]. 魏雅卓.东北师范大学2008
- [5].生物医学文本挖掘及其在基因调控信息分析中的应用[D]. 周俊.东南大学2006
- [6].海岛棉纤维发育相关转录因子GbSBP8的克隆及表达研究[D]. 辛婧.上海交通大学2007
- [7].基因组序列特征分析[D]. 焦典.东南大学2005
- [8].基因表达调控信息的获取、集成和可视化[D]. 吴骏.东南大学2005
- [9].基因组调控元件的分析[D]. 韦芬霞.东南大学2005
- [10].基于序列信息的转录因子结合位点和启动子理论预测[D]. 杨科利.内蒙古大学2007