论文摘要
支持向量机(SVM)于1995年提出,包括分类(SVC)和回归(SVR),是目前发展最快的机器学习方法。它基于结构风险最小,较好地解决了非线性、过学习、维数灾难、局部极小点、小样本等实际问题,泛化推广能力优异。本论文通过改进SVM,对外显子与内含子识别、纵向数据多维时间序列预测和非纵向数据化合物定量构效关系进行了研究,主要内容及结果归结如下:1)创建了一种新的DNA序列特征提取方法——多尺度组分与关联法。以此为基础,采用Fisher判别和SVC对外显子与内含子进行了识别,结果测试集上外显子灵敏度(Sn)、外显子特异度(Sn)、内含子灵敏度(Sq)、相关系数(CC)分别达到0.9240、0.9893、0.9900、0.9160。新方法具算法简单、准确度高、应用范围广等特点。2)基于SVR并融合带受控项的自回归模型(CAR),建立了一种既反映样本集动态特征又体现环境因子影响的非线性多维时间序列分析预测方法(SVR-CAR)。用一步预测法对两个纵向数据样本集的预测结果表明,SVR-CAR在所有5个参比模型中预测精度最高。SVR-CAR在生态学、农业科学、经济学等多维时间序列预测领域有较广泛的应用前景。3)为提高定量构效关系(QSAR)研究的预测精度,发展了一种新的基于SVR非线性筛选分子结构描述符、基于k-近邻群的非线性组合预测方法。以非纵向数据取代苯胺和苯酚类化合物对大型溞的QSAR实例验证表明:非线性组合预测新方法在所有10个参比模型中预测精度最高,且能更精细地反映描述符与化合物毒性间的非线性关系,具结构风险最小、非线性筛选描述符和子模型、非线性组合预测、自动选择最优核函数及其相应参数等诸多优点,在QSAR研究中有广泛应用前景。