结构基因组数据库构建及蛋白质主链构象的计算分析

结构基因组数据库构建及蛋白质主链构象的计算分析

论文摘要

蛋白质最重要的两类生物大分子之一,是生物体几乎所有活动的承担者,如生化反应的催化酶,呼吸系统中的血红蛋白,免疫系统中的抗体等等。生物体几乎所有的活动都离不开蛋白质。要想在分子水平上解释生命现象离不开对蛋白质结构和功能的研究。多数天然蛋白质在生理条件下都会折叠成稳定的三维空间结构,蛋白质的生物学功能在很大程度上取决于其空间结构,蛋白质结构构象多样性导致了不同的生物学功能。所以蛋白质结构的研究是功能研究和蛋白质设计的基础,也因此越来越得到重视。蛋白质种类繁多,结构千差万别,同时蛋白质结构测定实验是非常费时费力,消耗资源也大,而且成功率有限。为了解决这个矛盾,一方面国际上开展了许多结构基因组计划,试图通过高通量测定蛋白质结构在基因组规模上全面理解蛋白质功能,同时加快结构测定实验的速度,降低单个结构测定的成本。另一方面研究人员一直试图发展计算机模拟的方法来进行蛋白质结构预测,虽然在这方面取得了很大的成绩,但要实现完全解决蛋白质结构预测的目标还需很多的努力。本论文的工作重点主要是两方面:一是对结构基因组学中靶蛋白筛选和数据管理系统构建的工作,二是对分子动力学中增强采样方法以及小肽中侧链效应和近邻效应的研究。论文共分为以下三个部分:第1章绪论中简介了蛋白质结构的基础,介绍了目前蛋白质结构测定的常用方法,包括实验测定(X射线晶体衍射法和核磁共振波谱法)和理论预测的方法。理论预测的方法可以分为基于知识的建模预测和基于物理模型的从头预测。基于知识的建模预测又可以按照与已知结构模板的序列相似性可以分为比较建模法、折叠识别法。与实验测定蛋白质结构相比,理论预测的方法具有快速、低成本、高通量的优点,可以作为实验测定的一个有效的补充。本章还简单介绍了结构基因组的内容、优缺点以及当前世界范围内开展这项计划的大致情况。结构基因组计划的主要内容就是大规模、高通量的进行基因组规模上的蛋白质结构测定,因此会产生大量的实验数据,合理的存贮、管理、共享、挖掘这些数据也成为一项艰巨的任务摆在实验人员面前。同时由于实验测定蛋白质结构费时费力,靶蛋白筛选成为提高实验成功率和所测定结构的生物学意义的一个必不可少的环节。绪论最后我们花比较多的篇幅介绍了分子动力学的发展背景和现状,分子动力学作为一种基于物理模型的模拟预测方法除了可以获得蛋白质的结构信息还可以获得很多实验上无法测定的细节信息。分子动力学的基本思路就是用数值方法求解原子运动的牛顿方程或薛定谔方程。但是实际进行模拟时,考虑到体系大小和目前计算机的运算能力,通常都是采用半经验的势能函数,这些势能函数在不同分子力场中虽有差异,但基本上都包含成键相互作用(键长伸缩、键角弯曲、二面角旋转和弯曲)和非键相互作用(静电相互作用、范德华相互作用)项。这种形式的势函数简化了动力学模拟的计算但同时也限制了其准确度。因此发展出很多改进方法,如加入氢键项、极化效应和二面角项修正等。与模拟准确性一样,模拟时间也是制约分子动力学发展的一个主要因素。由于传统的分子动力学模拟的采样符合玻尔兹曼分布,因此要满足各态历经假设需要很长的模拟时间;同时由于体系中快速运动的存在限制了积分步长的大小。延长模拟时间的研究也因此可以分为延长积分步长和加快体系采样。延长积分步长主要是通过消除体系中的快速运动来实现。加快体系采样一是可以采用溶剂模型来减少溶剂分子的计算时间;二是可以采用非玻尔兹曼分布采样来加快构象空间的搜索。增强采样的方法经过20余年的努力目前发展的方法主要包括:高温动力学、放大集合运动方法、构象流动法、加速分子动力学、伞形采样、Tsallis有效势能、温度(哈密顿量)副本交换方法等。第2章中介绍了为人类CD34(+)造血干细胞/祖细胞及血液系统疾病相关蛋白质的结构基因组学研究进行的前期靶蛋白筛选工作和构建的一套高效的靶蛋白筛选、标注和数据管理的系统。首先介绍了该系统的框架、系统需求和功能。这是一个基于网页交互的数据库系统。通过用户交互的方式、参加结构基因组的不同小组可以方便的添加、修改、共享实验数据和实验方案,同时可以获取生物信息学方法预测的多种信息。其次介绍靶蛋白的结构和功能标注。通过多种生物信息学方法,我们收集整合了蛋白的各种结构和功能标注信息。包括一般信息、物理特性、二级结构、保守区域和潜在功能等。最后介绍结构基因组靶蛋白筛选的过程。筛选过程考虑到实验的可行性和潜在的生物学意义,我们给出了一种筛选的流程,并对筛选得到的1823个靶蛋白按优先级进行了排序。第3章中介绍了我们独立发展的一种哈密顿副本交换算法和用这种算法进行的残基类型和近邻相互作用的研究。在这种算法中,以丙氨酸二肽主链二面角的自由能曲面经过不同强度变形的伞形势加在各个副本得所有主链二面角上。采用广义的加权直方图分析来计算构象的自由能面的方法利用了所有交换的副本采样,包括加上和未加上附加伞形势的副本,这极大的降低了构象自由能曲面计算的统计不确定性(标准差0.5~1KJ/mol)。我们使用这种基于哈密顿量的副本交换方法研究近邻残基类型和构象对主链中特定二面角的构象平衡的影响,研究的体系包含丙氨酸、苯丙氨酸和颉氨酸的长度为2~5的多肽,模拟中全部采用显式溶剂,研究的焦点是主链二面角分布受自身残基类型以及近邻残基类型和构象的影响。结果不仅反应自身残基类型效应主要为Phe和Val相对Ala更倾向β构象,而且证明了近邻效应与自身残基类型效应大小相当。我们发现N端近邻主要表现出构象效应,各种近邻残基类型的α构象相对于β构象使下游的Ala倾向于β构象。C端近邻正好相反,主要表现出类型效应,C端的Val可以显著的使上游的Ala的构象平衡偏向于PⅡ。结果数据显示了与蛋白质卷曲结构数据库的统计结果具有相当程度的一致性,证明了这种近邻残基的相互作用在小肽和蛋白质中具有普遍性。此外我们还报导了一些在数据库统计中没有反应出的残基类型和近邻效应。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 蛋白质及其结构
  • 1.2 蛋白质结构测定方法
  • 1.2.1 蛋白质结构的实验测定方法
  • 1.2.2 蛋白质结构的理论预测方法
  • 1.3 结构基因组
  • 1.4 分子动力学模拟
  • 1.4.1 传统分子动力学模拟方法
  • 1.4.2 蛋白质分子动力学模拟的经验力场
  • 1.4.3 分子动力学模拟方法的发展
  • 1.5 论文概要
  • 参考文献
  • 第2章 结构基因组的结构和功能数据库
  • 2.1 背景介绍
  • 2.2 SGDHDP数据库系统
  • 2.2.1 系统需求
  • 2.2.2 数据库结构
  • 2.2.3 数据库系统功能
  • 2.3 靶蛋白筛选
  • 2.3.1 候选靶蛋白获取
  • 2.3.2 候选靶蛋白筛选
  • 2.4 靶蛋白的结构和功能标注
  • 2.4.1 常用信息和蛋白质物理性质
  • 2.4.2 基因和疾病相关性信息
  • 2.4.3 同源性信息
  • 2.4.4 二级结构
  • 2.4.5 保守结构域和功能花样
  • 2.4.6 结构/折叠类型
  • 2.4.7 蛋白质家族,超家族
  • 2.4.8 功能标注
  • 2.5 靶蛋白的筛选结果统计
  • 参考文献
  • 第3章 基于哈密顿量副本交换方法计算多肽的构象自由能
  • 3.1 背景介绍
  • 3.2 材料与方法
  • 3.2.1 HREMD模拟中采用的附加伞形势
  • 3.2.2 参考自由能表面
  • 3.2.3 广义加权直方图分析计算副本的轨迹来构建自由能表面
  • 3.2.4 多肽体系和模拟细节
  • 3.3 结果与讨论
  • 3.3.1 收敛性和统计误差
  • 3.3.2 残基侧链类型效应
  • 3.3.3 N端近邻效应
  • 3.3.4 C端近邻效应
  • 3.3.5 与实验和数据库统计结果的相关性
  • 3.4 结论
  • 3.5 极性残基的侧链和近邻效应及其与非极性残基的比较
  • 3.5.1 与残基极性无关的侧链效应和近邻效应
  • 3.5.2 极性残基的侧链效应及其与Ala的比较
  • 3.5.3 极性残基的近邻效应及其非极性残基的比较
  • 3.5.4 小结
  • 3.6 附录
  • 参考文献
  • 致谢
  • 在读期间发表的学术论文与取得的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    结构基因组数据库构建及蛋白质主链构象的计算分析
    下载Doc文档

    猜你喜欢