基于递归神经网的蛋白质结构域预测方法研究

基于递归神经网的蛋白质结构域预测方法研究

论文摘要

蛋白质结构域是具有特定功能的基本结构单元。它既是蛋白质结构化分类的基础,又与蛋白质进化密切相关。它对于人们认识蛋白质的结构,功能和进化有着重要的意义。因此,蛋白质结构域的研究成为生物信息学中的一个重要问题。通过专家手工来确定蛋白质结构域是非常可靠的。然而处在数据量急速增长的后基因组时代,人类专家的处理能力已无法满足数据分析的需要,这时自动化的预测方法则显得尤为重要。自动化的结构域预测方法可分为基于模板的方法和从头预测的方法。尽管基于模版的方法已经取得了较大的成功,但它在缺乏相应的模版信息时就不再有效。仅从序列信息来预测结构域的方法(从头预测)成为结构生物学和序列分析中的一个重要的问题。目前许多机器学习方法,如隐马尔可夫模型、神经网络、支撑向量机等已经被应用于蛋白质结构域边界的从头预测中。在这些方法中,基于双向递归网络(BRNN)的方法性能较为突出。但由于它在理论上存在对序列长程相关性的学习困难,导致模型在整体精度上并不是很高(69%),尤其是在蛋白质的多域的预测方面性能较低。基于对传统递归网络理论缺陷的分析,本文提出了一种新颖的基于长短记忆(Long Short-Term Memory: LSTM)递归网络的蛋白质结构域边界预测模型——IPSP-LSTM。该模型充分考虑蛋白质序列处理对模型的要求,从理论上解决了LSTM网络在蛋白质序列学习中记忆细胞输出的饱和问题,并且通过选择性的记忆和遗忘成功地对蛋白质序列中的长程相关性进行建模。实验结果表明较以前的基于机器学习(MLP, SVM, BRNN)的方法,该模型在整体预测和多域蛋白质链预测中取得了更好的效果。与基于BRNN的方法相比,本文提出的方法在双域的预测的敏感度和特异度两项指标上取得了更加平衡的结果。值得一提的是,新的模型对输入窗口的依赖性很小,这在一定程度上减轻了网络在扩大窗口过程中可能会面临的“维数灾难”问题。

论文目录

  • 摘要
  • ABSTRACT
  • 引言
  • 第一章 蛋白质结构域预测
  • 1.1 蛋白质结构简介
  • 1.1.1 蛋白质的组成
  • 1.1.2 蛋白质的层次结构与结构域
  • 1.1.3 蛋白质结构域预测的研究意义
  • 1.1.4 蛋白质结构域预测的内容和评价标准
  • 1.2 蛋白质结构域预测方法简述
  • 1.2.1 基于模版的方法
  • 1.2.2 聚类的方法
  • 1.2.3 基于从头预测的方法
  • 1.2.4 综合方法
  • 1.3 基于机器学习的从头预测方法概述
  • 1.3.1 基于马尔可夫链—蒙特卡罗的方法
  • 1.3.2 基于多层感知器的方法
  • 1.3.3 基于支撑向量机的方法
  • 1.3.4 基于递归网络的结构域预测
  • 第二章 递归神经网及其在蛋白质域预测中的应用
  • 2.1 序列相关性与神经网络
  • 2.2 递归神经网络建模蛋白质序列
  • 2.3 蛋白质结构域预测中的双向递归网模型
  • 2.3.1 BRNN 模型与学习算法
  • 2.3.2 BRNN 模型面临的学习难题
  • 第三章 IPSP-LSTM 模型与结构域预测
  • 3.1 LSTM 网络结构及其学习算法
  • 3.1.1 传统递归网络长程学习难题的理论分析
  • 3.1.2 传统的LSTM 的结构与学习算法
  • 3.1.3 具有遗忘门单元的LSTM
  • 3.2 IPSP-LSTM 模型与结构域预测
  • 3.2.1 IPSP-LSTM 结构
  • 3.2.2 IPSP-LSTM 模型预测结构域边界
  • 3.2.3 后处理方法
  • 第四章 实验方法、结果分析及LSTMDOM 系统
  • 4.1 实验方法
  • 4.1.1 交叉验证
  • 4.1.2 CAFASP4 测试
  • 4.1.3 对比实验方法
  • 4.2 实验结果与分析
  • 4.2.1 交叉验证实验结果与分析
  • 4.2.2 CAFASP4 实验结果分析
  • 4.2.3 对比实验结果与分析
  • 4.3 LSTMDOM——基于web 服务的结构域软件
  • 4.3.1 LSTMDOM
  • 4.3.2 LSTMDOM 运行步骤
  • 4.3.3 LSTMDOM 实现
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].结构域B在鼠冠状病毒S蛋白的抗原性及膜融合中的作用[J]. 微生物与感染 2020(01)
    • [2].碳水化合物结合结构域研究进展[J]. 微生物学报 2017(08)
    • [3].蛋白质结构域划分方法及在线服务综述[J]. 广州大学学报(自然科学版) 2019(01)
    • [4].PDZ结构域有望成为新药靶点[J]. 中国新药杂志 2019(11)
    • [5].含溴结构域和额外终端域家族蛋白——表观遗传领域的新型治疗靶点[J]. 药学学报 2017(08)
    • [6].纤维连接蛋白B结构域的生物学特征及其靶向药物开发[J]. 药学学报 2017(08)
    • [7].多结构域酶的结构域进化关系[J]. 生命的化学 2012(01)
    • [8].共调控共互作蛋白结构域的特征研究[J]. 中国优生与遗传杂志 2010(03)
    • [9].核定位蛋白的结构域特征分析[J]. 内蒙古大学学报(自然科学版) 2018(01)
    • [10].免疫球蛋白结合结构域的研究进展[J]. 药物生物技术 2012(03)
    • [11].毕赤酵母高密度发酵表达血管紧张素转化酶C-结构域[J]. 中国生物工程杂志 2010(04)
    • [12].精氨酸激酶C端结构域的克隆及其表达纯化[J]. 化学与生物工程 2010(06)
    • [13].整合素αMβ2 I-结构域的基因合成和蛋白表达[J]. 生物技术通讯 2009(01)
    • [14].酰基辅酶A结合结构域蛋白3在病原微生物复制中的作用[J]. 生物化学与生物物理进展 2017(03)
    • [15].海洋放线菌代谢产物、非核糖体多肽、腺苷化结构域研究进展[J]. 华中师范大学学报(自然科学版) 2015(01)
    • [16].木聚糖酶碳水化合物结合结构域研究进展[J]. 生物工程学报 2010(03)
    • [17].猪乙型脑炎病毒E蛋白结构域Ⅲ原核表达和抗原性分析[J]. 中国畜牧兽医 2016(04)
    • [18].Ⅰ型聚酮合酶中酰基转移酶结构域的研究进展[J]. 有机化学 2018(09)
    • [19].溴结构域蛋白4及其抑制剂的研究进展[J]. 中国药学杂志 2017(15)
    • [20].西尼罗病毒糖蛋白第三结构域的原核表达及鉴定[J]. 中国兽医学报 2016(01)
    • [21].结构域相互作用数据库的产生、发展与应用[J]. 生物化学与生物物理进展 2009(03)
    • [22].LSECtin CRD结构域的运行性研究[J]. 生物物理学报 2009(S1)
    • [23].人源血管紧张素转化酶-C结构域在毕赤酵母中的表达[J]. 生物工程学报 2010(05)
    • [24].中国山西省部分地区人群肌节同源型结构域1基因与非综合征性唇腭裂的关联性[J]. 中国组织工程研究与临床康复 2010(28)
    • [25].PICK1的结构与功能研究进展[J]. 现代生物医学进展 2008(10)
    • [26].鹅坦布苏病毒E蛋白结构域Ⅲ的原核表达及抗原性分析[J]. 南方农业学报 2015(01)
    • [27].鸭维甲酸诱导基因I克隆及其结构域功能分析[J]. 中国农业科学 2013(10)
    • [28].一种基于支持向量机的蛋白质结构域边界预测方法[J]. 吉林大学学报(理学版) 2008(05)
    • [29].细胞分裂周期蛋白42结构域突变真核表达质粒的构建与鉴定[J]. 解剖学杂志 2019(03)
    • [30].死亡受体6的胞内结构域对其亚细胞定位的调节[J]. 生物物理学报 2014(02)

    标签:;  ;  ;  ;  ;  

    基于递归神经网的蛋白质结构域预测方法研究
    下载Doc文档

    猜你喜欢