基于机器学习的多聚脯氨酸二型结构预测

基于机器学习的多聚脯氨酸二型结构预测

论文摘要

蛋白质的功能与其空间结构之间有着紧密联系,因此,在生物医学领域,需要掌握蛋白质的结构信息。然而,由于蛋白质的三维结构处于原子水平上,测定蛋白质的三维结构远没有测定氨基酸序列来的容易。为此,人们在假定氨基酸序列决定蛋白质空间结构的前提下,寻求通过序列来找到结构——功能之间的捷径。 本论文正是通过氨基酸序列来预测规则的PPⅡ螺旋结构的。PPⅡ螺旋结构是一种稀有的二级结构,它不像α螺旋、β折叠,由于其缺乏氢键理论模型,目前在蛋白质结构数据库中还没有其结构信息。本论文通过PISCES服务器,从PDB数据库中精选出分辨率高、同一性低的蛋白质实体,然后根据PPⅡ螺旋结构定义,使用扭转角信息将PPⅡ螺旋结构与non-PPⅡ螺旋结构分离开来,组成PPⅡ与non-PPⅡ两类数据集。由于PPⅡ螺旋结构比较稀少,只占到2%,造成数据集中两类结构分布极不均衡,为了能够用于机器学习,采用随机裁剪non-PPⅡ类的办法,组成均衡分布的数据集,最后使用机器学习方法对数据集进行训练与测试。 本论文分别建立起人工神经网络、遗传神经网络和支持向量机三种模型用于预测PPⅡ螺旋结构。其中遗传神经网络与支持向量机模型是首次引入到PPⅡ螺旋结构预测中来。通过比较结果可知,使用遗传算法与BP算法相结合的混合算法训练BP网络,比单纯使用BP算法训练的网络模型预测效果要好,而基于统计学习理论的支持向量机模型比前两种方法取得更好的预测结果,预测结果为在Gauss核函数宽度值σ=5、惩罚参数C=100、窗口长度l=7时,敏感度=78.1%,特异度=74.9%,总精度=76.5%。另外,本论文还提出一种加强局部信息的编码方法,在人工神经网络方法进行预测时,使用此编码方法,能够更好地将PPⅡ螺旋结构预测出来,敏感度高达74.5%,但这种编码方法对预测non-PPⅡ螺旋结构性能较差,所以造成预测总精度不高。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 生物信息学
  • 1.2 蛋白质结构
  • 1.2.1 多聚脯氨酸二型螺旋结构
  • 1.2.2 PPII螺旋结构特性
  • 1.3 蛋白质结构预测
  • 1.3.1 蛋白质结构预测的意义与依据
  • 1.3.2 蛋白质二级结构预测
  • 1.3.3 PPII螺旋结构预测现状
  • 1.4 相关数据库
  • 1.4.1 蛋白质数据库概述
  • 1.4.2 蛋白质结构数据库
  • 1.4.3 PISCES服务器
  • 1.5 本论文的主要研究内容
  • 参考文献
  • 第二章 机器学习系统
  • 2.1 机器学习
  • 2.1.1 学习系统的基本结构
  • 2.1.2 学习问题的界定
  • 2.2 机器学习方法
  • 2.2.1 从数据库中发现知识(KDD)
  • 2.2.2 人工神经网络(ANN)
  • 2.2.3 支持向量机(SVM)
  • 2.2.4 贝叶斯网络(BBN)
  • 2.2.5 遗传算法(GA)
  • 2.2.6 聚类
  • 2.3 输入/输出编码
  • 2.3.1 输入编码
  • 2.3.1.1 直接编码
  • 2.3.1.2 间接编码
  • 2.3.2 输出编码
  • 2.4 预测的性能评价方法
  • 参考文献:
  • 第三章 蛋白质序列的预处理
  • 3.1 蛋白质实体提取
  • 3.2 PPII螺旋结构定义与提取
  • 3.2.1 DSSP程序简介
  • 3.2.2 PPII螺旋结构定义
  • 3.2.3 PPII螺旋结构的提取
  • 3.3 数据集分析
  • 3.3.1 PPII螺旋结构特征分析
  • 3.3.2 数据集可学习性分析
  • 3.4 本章小结
  • 参考文献:
  • 第四章 基于人工神经网络的PPII螺旋结构预测
  • 4.1 引言
  • 4.2 BP网络模型
  • 4.2.1 BP算法步骤
  • 4.2.2 BP算法参数
  • 4.3 BP网络预测
  • 4.3.1 编码方法
  • 4.3.2 预测性能评价方法
  • 4.3.3 实验与结果分析
  • 4.4 本章小结
  • 参考文献:
  • 第五章 基于遗传神经网络的PPII螺旋结构预测
  • 5.1 引言
  • 5.2 遗传算法
  • 5.2.1 遗传算法的基本原理
  • 5.2.2 遗传算法的步骤
  • 5.3 遗传神经网络设计
  • 5.3.1 遗传神经网络流程
  • 5.3.2 编码方法
  • 5.3.3 适应度函数的确定
  • 5.3.4 遗传算子的确定
  • 5.3.5 控制参数的确定
  • 5.3.6 实验方案
  • 5.4 实验结果与分析
  • 5.5 本章小结
  • 参考文献:
  • 第六章 基于支持向量机的PPII螺旋结构预测
  • 6.1 引言
  • 6.2 支持向量机理论
  • 6.2.1 线性支持向量机
  • 6.2.2 非线性支持向量机
  • 6.2.3 不可分情况的处理
  • 6.2.4 支持向量机的主要优点
  • 6.3 问题描述与优化算法
  • 6.3.1 问题描述
  • 6.3.2 优化算法的选取
  • 6.3.3 SMO算法步骤
  • 6.4 实验结果与分析
  • 6.4.1 采用Matlab中qp()程序包作为SVM的优化方法
  • 6.4.2 采用SMO作为SVM的优化方法
  • 6.4.3 结果比较
  • 6.5 本章小结
  • 参考文献:
  • 第七章 总结与展望
  • 7.1 总结
  • 7.2 展望
  • 附录1 氨基酸表
  • 附录2 PPII螺旋结构的残基序列片段
  • 附录3 缩写表
  • 附录4 读研期间发表和收录的学术论文
  • 致谢
  • 相关论文文献

    • [1].一个轻量级分布式机器学习系统的设计与实现[J]. 计算机工程 2020(01)
    • [2].百度研究院发布2020年十大科技趋势预测[J]. 中国经济周刊 2020(01)
    • [3].浅谈中高年级本科生机器学习知识传授与科研素养培育的三大主线[J]. 教育教学论坛 2020(10)
    • [4].自动化机器学习中的超参调优方法[J]. 中国科学:数学 2020(05)
    • [5].机器学习系统毒化攻击综述[J]. 通信技术 2020(03)
    • [6].机器学习在地球物理测井中的应用进展[J]. 测井技术 2020(02)
    • [7].基于自动机器学习的云平台动态资源调度研究[J]. 科技视界 2020(13)
    • [8].非经典条件下的机器学习方法专题前言[J]. 软件学报 2020(04)
    • [9].“机器学习+量子计算”未来可期[J]. 张江科技评论 2020(03)
    • [10].机器学习在粒子加速器的应用(英文)[J]. 数据与计算发展前沿 2019(06)
    • [11].机器学习如何改变教育[J]. 计算机与网络 2020(12)
    • [12].机器学习诞生新型“研究员”[J]. 机床与液压 2020(14)
    • [13].机器学习如何推动5G网络[J]. 计算机与网络 2020(13)
    • [14].一种机器学习与相变之间的新型映射(英文)[J]. 中国科学技术大学学报 2020(01)
    • [15].机器学习预测金融市场走势[J]. 数据分析与知识发现 2020(08)
    • [16].魏德米勒自动化机器学习解决方案[J]. 石油化工自动化 2020(05)
    • [17].基于机器学习的智慧农业决策系统设计与实现[J]. 信息与电脑(理论版) 2018(24)
    • [18].分布式机器学习平台与算法综述[J]. 计算机科学 2019(03)
    • [19].机器学习在反洗钱领域的应用与发展[J]. 清华金融评论 2019(04)
    • [20].机器学习让计算机更智能[J]. 计算机与网络 2019(14)
    • [21].机器学习在经济学中的应用[J]. 纳税 2019(24)
    • [22].机器学习在网络空间安全研究中的应用分析[J]. 电脑知识与技术 2019(24)
    • [23].基于机器学习的城市生成方法研究[J]. 智能建筑与智慧城市 2019(11)
    • [24].降低机器学习门槛的六大工具[J]. 电脑知识与技术(经验技巧) 2019(10)
    • [25].机器学习在企业级场景中的实践与探讨[J]. 中国建设信息化 2018(03)
    • [26].机器学习——我们该如何与机器竞争[J]. 数字通信世界 2018(01)
    • [27].机器学习的能力范围及其对劳动力的影响[J]. 世界科学 2018(04)
    • [28].机器学习即服务[J]. 网络安全和信息化 2017(10)
    • [29].机器学习作用于信息安全的五大顶级案例[J]. 网络安全和信息化 2018(01)
    • [30].2018年来说说机器学习[J]. 软件和集成电路 2018(05)

    标签:;  ;  ;  ;  ;  ;  ;  

    基于机器学习的多聚脯氨酸二型结构预测
    下载Doc文档

    猜你喜欢