论文摘要
通过实验确定蛋白质的结构和含氟化合物的生物活性,不但费时费力费钱,而且前者在实验中易遇到困难,后者则易给环境带来负面影响。因此,建立一个自动化识别新肽链蛋白质结构的方法,以及采用定量构效关系研究来预测未知含氟化合物的生物活性已成为一种势在必行的趋势。本文在深入了解支持向量机的基础上,结合组合预测,系统地研究了蛋白质四级结构分类和含氟农药活性预测,为蛋白质结构与功能的研究和新含氟农药的设计与合成提供了指导作用。为提高蛋白质四级结构分类精度,应用四种特征值提取方法,基于支持向量机分类进行了研究。其中有三种特征值提取方法是对传统的氨基酸组成成分、二肽组成成分和氨基酸组成分布等方法进行了改进;第四种方法引入了新的氨基酸生化参数,采用伪氨基酸法提取特征值。结果表明:四种模型的分类精度均提高了2~3个百分点。并在此基础上引入组合预测,对上述四种模型进行线性和非线性组合,其分类精度与最高分类精度的子模型相比再次提高了2~3个百分点,使独立测试集的分类精度达到了90%以上。为深入认识含氟农药生物活性与其结构间的关系,建立更理想的定量构效关系模型,以化合物的油水分配系数等7个分子结构描述符,基于支持向量机回归和MSE最小原则,经自动寻找最优核函数、非线性筛选描述符、K-最近邻预测构建子模型,最后采用组合预测以留一法定量预测了33种含氟化合物对5种不同病害的生物活性。结果显示:对含氟农药作用于五种病害的活性预测,基于保留描述符和子模型的SVR组合预测结果均为最优,其MSE值在0.005~0.015之间,MAPE值在2.136~3.164之间。与多元线性回归、逐步线性回归和误差反传神经网络等留一法测试结果比较,本文方法具有更优的预测精度及稳定性。
论文目录
摘要Abstract第一章 绪论1 机器学习实现方法概述2 支持向量机研究现状2.1 理论研究2.1.1 训练算法及其改进2.1.2 测试速度及改进2.1.3 核函数的构造、改进以及相应参数的调整2.1.4 利用SVM解决多分类的问题2.2 应用研究2.2.1 模式识别(分类)2.2.2 回归分析3 本文内容安排第二章 支持向量机原理1 概况2 统计学习理论2.1 结构风险最小准则与推广性的界2.2 VC维理论3 核函数4 支持向量机分类4.1 二类支持向量机4.1.1 线性可分情况4.1.2 线性不可分情况4.1.3 非线性分类4.2 一类支持向量机4.3 多值分类支持向量机4.3.1 多类分类支持向量机MSVM4.3.2 基于BSVM的分类器5 支持向量机回归6 快速训练算法及其具体操作6.1 SVM-LIGHT算法6.2 SMO算法6.3 BSVM6.4 LIBSVM6.5 LIBSVM操作方法(基于PYTHON)6.5.1 LIBSVM的一般操作步骤6.5.2 LIBSVM使用的数据集格式6.5.3 svmscale、svmtrain和svmpredict的使用方法6.5.4 举例说明第三章 支持向量机在蛋白质四级结构分类中的应用1 引言2 材料和方法2.1 数据集2.2 特征向量提取2.2.1 氨基酸组成成分与多肽组成成分2.2.2 氨基酸组成分布2.2.3 基于理化参数的伪氨基酸法2.3 组合预测2.3.1 线性组合预测(线性集成方法)2.3.2 非线性组合预测2.4 参数评估3 结果与讨论3.1 氨基酸组成成分及多肽组成成分中不同计算方法对结果的影响3.2 不同分段数目的氨基酸组成分布法对结果的影响3.3 不同尺度的伪氨基酸法对预测性能的影响3.4 不同理化参数的伪氨基酸法对结果的影响3.5 组合预测对结果的影响4 结论与展望第四章 支持向量机在含氟化合物活性预测中的应用1 引言2 材料与方法2.1 数据集2.2 核函数的选择2.3 基于SVR的非线性描述符筛选2.4 基于SVR的全局预测与KNN预测2.5 基于KNN的非线性组合预测2.6 预测性能评价指标3 结果与分析3.1 含氟农药对西瓜白绢病的QSAR结果分析3.1.1 选择核函数及筛选描述符3.1.2 KNN预测及组合预测3.2 含氟农药对5种病害的QSAR结果综合分析3.2.1 选择核函数及筛选描述符3.2.2 基于KNN的组合预测4 结论与展望参考文献附录A 数据集致谢作者简历
相关论文文献
标签:支持向量机分类论文; 支持向量机回归论文; 组合预测论文; 蛋白质四级结构论文; 定量构效关系论文;