基于支持向量机的蛋白质分类及含氟农药活性预测

基于支持向量机的蛋白质分类及含氟农药活性预测

论文摘要

通过实验确定蛋白质的结构和含氟化合物的生物活性,不但费时费力费钱,而且前者在实验中易遇到困难,后者则易给环境带来负面影响。因此,建立一个自动化识别新肽链蛋白质结构的方法,以及采用定量构效关系研究来预测未知含氟化合物的生物活性已成为一种势在必行的趋势。本文在深入了解支持向量机的基础上,结合组合预测,系统地研究了蛋白质四级结构分类和含氟农药活性预测,为蛋白质结构与功能的研究和新含氟农药的设计与合成提供了指导作用。为提高蛋白质四级结构分类精度,应用四种特征值提取方法,基于支持向量机分类进行了研究。其中有三种特征值提取方法是对传统的氨基酸组成成分、二肽组成成分和氨基酸组成分布等方法进行了改进;第四种方法引入了新的氨基酸生化参数,采用伪氨基酸法提取特征值。结果表明:四种模型的分类精度均提高了2~3个百分点。并在此基础上引入组合预测,对上述四种模型进行线性和非线性组合,其分类精度与最高分类精度的子模型相比再次提高了2~3个百分点,使独立测试集的分类精度达到了90%以上。为深入认识含氟农药生物活性与其结构间的关系,建立更理想的定量构效关系模型,以化合物的油水分配系数等7个分子结构描述符,基于支持向量机回归和MSE最小原则,经自动寻找最优核函数、非线性筛选描述符、K-最近邻预测构建子模型,最后采用组合预测以留一法定量预测了33种含氟化合物对5种不同病害的生物活性。结果显示:对含氟农药作用于五种病害的活性预测,基于保留描述符和子模型的SVR组合预测结果均为最优,其MSE值在0.005~0.015之间,MAPE值在2.136~3.164之间。与多元线性回归、逐步线性回归和误差反传神经网络等留一法测试结果比较,本文方法具有更优的预测精度及稳定性。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1 机器学习实现方法概述
  • 2 支持向量机研究现状
  • 2.1 理论研究
  • 2.1.1 训练算法及其改进
  • 2.1.2 测试速度及改进
  • 2.1.3 核函数的构造、改进以及相应参数的调整
  • 2.1.4 利用SVM解决多分类的问题
  • 2.2 应用研究
  • 2.2.1 模式识别(分类)
  • 2.2.2 回归分析
  • 3 本文内容安排
  • 第二章 支持向量机原理
  • 1 概况
  • 2 统计学习理论
  • 2.1 结构风险最小准则与推广性的界
  • 2.2 VC维理论
  • 3 核函数
  • 4 支持向量机分类
  • 4.1 二类支持向量机
  • 4.1.1 线性可分情况
  • 4.1.2 线性不可分情况
  • 4.1.3 非线性分类
  • 4.2 一类支持向量机
  • 4.3 多值分类支持向量机
  • 4.3.1 多类分类支持向量机MSVM
  • 4.3.2 基于BSVM的分类器
  • 5 支持向量机回归
  • 6 快速训练算法及其具体操作
  • 6.1 SVM-LIGHT算法
  • 6.2 SMO算法
  • 6.3 BSVM
  • 6.4 LIBSVM
  • 6.5 LIBSVM操作方法(基于PYTHON)
  • 6.5.1 LIBSVM的一般操作步骤
  • 6.5.2 LIBSVM使用的数据集格式
  • 6.5.3 svmscale、svmtrain和svmpredict的使用方法
  • 6.5.4 举例说明
  • 第三章 支持向量机在蛋白质四级结构分类中的应用
  • 1 引言
  • 2 材料和方法
  • 2.1 数据集
  • 2.2 特征向量提取
  • 2.2.1 氨基酸组成成分与多肽组成成分
  • 2.2.2 氨基酸组成分布
  • 2.2.3 基于理化参数的伪氨基酸法
  • 2.3 组合预测
  • 2.3.1 线性组合预测(线性集成方法)
  • 2.3.2 非线性组合预测
  • 2.4 参数评估
  • 3 结果与讨论
  • 3.1 氨基酸组成成分及多肽组成成分中不同计算方法对结果的影响
  • 3.2 不同分段数目的氨基酸组成分布法对结果的影响
  • 3.3 不同尺度的伪氨基酸法对预测性能的影响
  • 3.4 不同理化参数的伪氨基酸法对结果的影响
  • 3.5 组合预测对结果的影响
  • 4 结论与展望
  • 第四章 支持向量机在含氟化合物活性预测中的应用
  • 1 引言
  • 2 材料与方法
  • 2.1 数据集
  • 2.2 核函数的选择
  • 2.3 基于SVR的非线性描述符筛选
  • 2.4 基于SVR的全局预测与KNN预测
  • 2.5 基于KNN的非线性组合预测
  • 2.6 预测性能评价指标
  • 3 结果与分析
  • 3.1 含氟农药对西瓜白绢病的QSAR结果分析
  • 3.1.1 选择核函数及筛选描述符
  • 3.1.2 KNN预测及组合预测
  • 3.2 含氟农药对5种病害的QSAR结果综合分析
  • 3.2.1 选择核函数及筛选描述符
  • 3.2.2 基于KNN的组合预测
  • 4 结论与展望
  • 参考文献
  • 附录A 数据集
  • 致谢
  • 作者简历
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于支持向量机的蛋白质分类及含氟农药活性预测
    下载Doc文档

    猜你喜欢