基于智能计算的蛋白质功能预测研究

基于智能计算的蛋白质功能预测研究

论文摘要

蛋白质是生命体赖以生存的营养要素,是细胞组织的重要组成部分。几乎所有的生物过程都与蛋白质发生某种联系。根据蛋白质序列的排列顺序和序列信息确定蛋白质的功能成为生物学研究重点。目前蛋白质序列数量的激增,急需要开发快速、准确地计算工具预测蛋白质的功能。研究蛋白质序列信息与其功能的关系也是这个领域的研究重点。本论文围绕蛋白质功能预测的几个重要方面:蛋白质亚细胞位点预测,蛋白质结构类预测和单序列蛋白质二级结构预测和蛋白质序列内功能Motif发现展开研究,目的是开发一些根据序列信息预测蛋白质功能的方法。论文的主要研究成果如下:在蛋白质亚细胞位点预测研究中,根据Chou提出的伪氨基酸组成离散模型,提出一种改进的伪氨基酸组成模型。使用免疫遗传算法优化附加特征向量的权重。在改进的伪氨基酸组成模型框架中,使用数字信号处理技术和疏水氨基酸对模式表示序列的附加特征,应用扩大的协方差作为预测工具,预测了真核细胞12类亚细胞位点。然后提出了一种基于特征选择的集成分类器的预测方法,用于凋谢蛋白的亚细胞位点预测。使用具有不同间隔的氨基酸对组成表示序列特征,经过特征选择后形成更加有效的特征组合。集成分类器中的基本分类器为模糊K-近邻(FKNN)分类算法,Jackknife测试和独立数据集测试证明了该方法的有效性和实用性。在蛋白质结构类预测研究中,提出了三种结构类预测的方法。第一种是基于二叉树支持向量机的方法,发展了一种新的伪氨基酸组成表示序列的特征。结合了传统的氨基酸组成,序列内氨基酸相互关系和疏水模式,使用二叉树支持向量机作为预测工具,采用标准数据集验证了方法的性能;第二种方法是基于改进的伪氨基酸组成模型的结构类预测方法。将蛋白质序列映射为短的时间序列,计算序列的近似熵,构造了一种27-D的伪氨基酸组成表示序列特征。FKNN分类算法作为预测工具,免疫遗传算法优化附加特征权重系数。在“严格”数据集测试中取得了较好的结果;第三种方法是两层模糊支持向量机网络的方法,在第一层中,基本的分类器是模糊支持向量机,输入数据是基于不同物理化学属性的伪氨基酸组成。组合第一层中各个模糊支持向量机的输出数据,作为第二层模糊支持向量机分类器的输入数据,经过决策后得到最终结果。在蛋白质二级结构预测研究中,提出了基于最大熵概率模型的预测方法。考虑了蛋白质序列的结构类信息和目标残基的上下文环境,设计了影响残基二级结构的特征空间和特征模版。将这些特征都包含进入最大熵概率分布模型中,根据结构类不同分别训练和建立二级结构预测模型。算法中二级结构的特征信息仅来自于序列本身,没有考虑多序列排列信息。目的是解决“孤立”蛋白的二级结构预测问题。实验证明预测算法具有较高的准确率和实用性。由于细胞核内空间狭窄和蛋白质的不稳定性,核内亚空间的蛋白质位点预测成为难点。本论文提出了基于近似熵的伪氨基酸组成方法,采用集成AdaBoost分类器作为预测工具,用于蛋白质亚核位点的预测。在两个标准数据集上的测试表明了该方法的有效性。蛋白质家族内序列具有相似的功能,序列内的重点区域Motif也应该具有相似性。本论文提出了一种Motif发现算法,在蛋白质家族内寻找重要的Motif集合,验证序列所属的蛋白质家族。在连接酶的21个亚家族识别中,建立了一个实用的连接酶亚家族服务器。最后,对全论文的研究内容进行了总结,指出了研究工作中存在的不足,明确了下一步的研究方向。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外的研究现状
  • 1.2.1 蛋白质亚细胞定位研究
  • 1.2.2 蛋白质结构类和折叠类型预测研究
  • 1.2.3 蛋白质二级结构预测研究
  • 1.3 论文的研究内容和创新点
  • 1.4 论文的章节安排
  • 第二章 蛋白质亚细胞定位预测算法的研究
  • 2.1 引言
  • 2.2 改进的伪氨基酸组成模型
  • 2.2.1 伪氨基酸组成离散模型
  • 2.2.2 改进的伪氨基酸组成模型
  • 2.3 真核细胞蛋白质亚细胞定位预测
  • 2.3.1 蛋白质序列表示方法
  • 2.3.2 扩大的协方差判别式算法
  • 2.3.3 测试数据集
  • 2.3.4 性能评价标准
  • 2.3.5 结果与讨论
  • 2.4 凋谢蛋白亚细胞定位预测研究
  • 2.4.1 背景介绍
  • 2.4.2 材料和方法
  • 2.4.3 结果与讨论
  • 2.5 小结
  • 第三章 基于伪氨基酸组成的蛋白质结构类预测算法的研究
  • 3.1 引言
  • 3.2 背景及相关工作
  • 3.3 基于二叉树支持向量机的结构类预测方法
  • 3.3.1 序列特征表示
  • 3.3.2 支持向量机原理
  • 3.3.3 二叉树支持向量机
  • 3.3.4 数据集和评价方法
  • 3.3.5 结果与讨论
  • 3.4 基于近似熵的蛋白质结构类预测方法
  • 3.4.1 测试数据集
  • 3.4.2 预测方法
  • 3.4.3 近似熵原理与计算方法
  • 3.4.4 结果与讨论
  • 3.5 小结
  • 第四章 基于模糊支持向量机网络的蛋白质结构类预测研究
  • 4.1 引言
  • 4.2 材料和方法
  • 4.2.1 模糊支持向量机
  • 4.2.2 模糊支持向量机网络
  • 4.2.3 蛋白质序列表示
  • 4.3 结果与讨论
  • 4.4 小结
  • 第五章 不同结构类蛋白质二级结构预测算法的研究
  • 5.1 引言
  • 5.2 背景及相关工作
  • 5.3 最大熵模型原理
  • 5.4 材料和方法
  • 5.4.1 数据集
  • 5.4.2 蛋白质二级结构预测模型的建立
  • 5.4.3 特征空间
  • 5.4.4 特征模版
  • 5.4.5 算法性能评价
  • 5.5 结果与分析
  • 5.6 小结
  • 第六章 基于集成分类算法的蛋白质亚核定位研究
  • 6.1 引言
  • 6.2 研究背景
  • 6.3 材料和方法
  • 6.3.1 数据集
  • 6.3.2 蛋白质序列表示
  • 6.3.3 集成分类预测系统
  • 6.3.4 AdaBoost算法
  • 6.4 结果与讨论
  • 6.5 小结
  • 第七章 蛋白质序列Motif发现算法的研究
  • 7.1 引言
  • 7.2 背景及相关工作
  • 7.3 蛋白质序列Motif发现算法
  • 7.3.1 特征选择
  • 7.3.2 模体连接
  • 7.3.3 模体产生
  • 7.3.4 蛋白质序列家族识别
  • 7.4 Motif发现算法在连接酶的亚家族识别上的应用
  • 7.4.1 数据集
  • 7.4.2 结果与讨论
  • 7.4.3 接连酶亚家族类型预测服务器
  • 7.5 小结
  • 第八章 总结与展望
  • 8.1 总结
  • 8.2 展望
  • 参考文献
  • 附录
  • 附录A 攻读博士学位期间完成的论文
  • 附录B 攻读博士学位期间所参与的项目
  • 附录C 攻读博士学位期间获得的奖励和荣誉称号
  • 相关论文文献

    • [1].北京大学报道单氨基酸精度绘制蛋白质功能图谱新方法[J]. 食品与生物技术学报 2020(03)
    • [2].加权优先级网络在蛋白质功能预测中的应用研究[J]. 小型微型计算机系统 2017(09)
    • [3].蛋白质功能预测方法研究进展[J]. 智能计算机与应用 2016(04)
    • [4].基于多示例多标记迁移学习的蛋白质功能预测[J]. 中国科学:信息科学 2017(11)
    • [5].评价蛋白质功能性质的指标及应用进展[J]. 黑龙江畜牧兽医 2015(23)
    • [6].面向蛋白质功能位点识别的机器学习平台构建[J]. 生物信息学 2010(01)
    • [7].茶多酚与蛋白质的相互作用对蛋白质功能特性的影响研究进展[J]. 食品工业科技 2008(06)
    • [8].蛋白质功能预测方法概述[J]. 生物信息学 2013(01)
    • [9].基于新型机器学习方法的蛋白质功能预测与分析[J]. 信息通信 2012(05)
    • [10].基于K近邻的蛋白质功能的预测方法[J]. 生物医学工程研究 2009(02)
    • [11].基于多网络数据协同矩阵分解预测蛋白质功能[J]. 计算机研究与发展 2017(12)
    • [12].基于图聚类的蛋白质功能预测方法[J]. 福建师范大学学报(自然科学版) 2015(03)
    • [13].蛋白质功能预测的蚁群优化算法[J]. 广西师范大学学报(自然科学版) 2011(03)
    • [14].不同改性方法对蛋白质功能性质的影响研究[J]. 食品工业 2015(12)
    • [15].基于双重索引矩阵的蛋白质功能预测[J]. 计算机应用 2015(06)
    • [16].基于双加权投票的蛋白质功能预测[J]. 计算机科学 2019(04)
    • [17].基于0-1矩阵分解的蛋白质功能预测[J]. 中国科学:信息科学 2019(09)
    • [18].结合蛋白质互作与功能类的可分性预测蛋白质功能[J]. 中国生物医学工程学报 2009(02)
    • [19].基于正负样例的蛋白质功能预测[J]. 计算机研究与发展 2016(08)
    • [20].基于随机游走的蛋白质功能预测算法设计与实现[J]. 黑龙江大学工程学报 2015(03)
    • [21].基于布尔矩阵分解的蛋白质功能预测框架[J]. 计算机研究与发展 2019(05)
    • [22].基于贝叶斯网络和相互作用可信度的蛋白质功能预测方法[J]. 激光生物学报 2009(03)
    • [23].通过构建蛋白质结构域功能模版库做基于氨基酸序列的蛋白质功能位点预测(英文)[J]. 复旦学报(自然科学版) 2013(06)
    • [24].我国科学家开发了蛋白质瞬时原位激活新技术[J]. 石河子科技 2019(03)
    • [25].基于关键功能模块挖掘的蛋白质功能预测[J]. 自动化学报 2018(01)
    • [26].基于模糊积分多源数据融合的蛋白质功能预测[J]. 南京大学学报(自然科学版) 2012(01)
    • [27].冷榨双低菜子粕中蛋白质功能性质的研究[J]. 湖北农业科学 2016(08)
    • [28].食品中蛋白质的功能(七) 食品蛋白质功能特性的影响因素[J]. 肉类研究 2009(10)
    • [29].基于MIMLNN的玉米蛋白质功能预测[J]. 现代计算机(专业版) 2018(25)
    • [30].改进LPU用于蛋白质功能预测[J]. 计算机工程与科学 2011(12)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    基于智能计算的蛋白质功能预测研究
    下载Doc文档

    猜你喜欢