基于支持向量机的外显子与内含子识别及回归预测研究

论文摘要

支持向量机（SVM）于1995年提出，包括分类（SVC）和回归（SVR），是目前发展最快的机器学习方法。它基于结构风险最小，较好地解决了非线性、过学习、维数灾难、局部极小点、小样本等实际问题，泛化推广能力优异。本论文通过改进SVM，对外显子与内含子识别、纵向数据多维时间序列预测和非纵向数据化合物定量构效关系进行了研究，主要内容及结果归结如下：1)创建了一种新的DNA序列特征提取方法——多尺度组分与关联法。以此为基础，采用Fisher判别和SVC对外显子与内含子进行了识别，结果测试集上外显子灵敏度（Sn）、外显子特异度（Sn）、内含子灵敏度（Sq）、相关系数（CC）分别达到0.9240、0.9893、0.9900、0.9160。新方法具算法简单、准确度高、应用范围广等特点。2)基于SVR并融合带受控项的自回归模型（CAR），建立了一种既反映样本集动态特征又体现环境因子影响的非线性多维时间序列分析预测方法（SVR-CAR）。用一步预测法对两个纵向数据样本集的预测结果表明，SVR-CAR在所有5个参比模型中预测精度最高。SVR-CAR在生态学、农业科学、经济学等多维时间序列预测领域有较广泛的应用前景。3)为提高定量构效关系（QSAR）研究的预测精度，发展了一种新的基于SVR非线性筛选分子结构描述符、基于k-近邻群的非线性组合预测方法。以非纵向数据取代苯胺和苯酚类化合物对大型溞的QSAR实例验证表明：非线性组合预测新方法在所有10个参比模型中预测精度最高，且能更精细地反映描述符与化合物毒性间的非线性关系，具结构风险最小、非线性筛选描述符和子模型、非线性组合预测、自动选择最优核函数及其相应参数等诸多优点，在QSAR研究中有广泛应用前景。

论文目录

摘要

Abstract

第一章绪论

1 基因识别

1.1 真核生物的基因结构

1.2 真核生物基因识别算法

2 回归预测

2.1 多维时间序列分析

2.2 定量构效关系

2.3 建模方法

3 支持向量机原理

3.1 SVC基本原理

3.1.1 线性支持向量机

3.1.2 非线性支持向量机

3.2 SVR基本原理

3.3 LIBSVM简介

4 本文的研究内容与创新点

参考文献

第二章基于多尺度组分与关联法的外显子与内含子识别

1 引言

2 数据集与方法

2.1 基本数据集

2.2 Fisher判别法

2.3 交叉验证

2.4 多尺度组分与关联法

2.4.1 多尺度关联

2.4.2 多尺度组分

2.5 识别性能的评价指标

3 结果与分析

3.1 最优碱基编码

3.2 最优特征值统计量

3.3 尺度与步长不同组合对识别性能的影响

3.4 组分与关联不同组合对识别性能的影响

3.5 外显子与内含子的识别

3.5.1 最优关联特征参数

3.5.2 外显子与内含子识别结果

4 讨论

参考文献

第三章基于 SVR与CAR的多维时间序列分析

1 引言

2 SVR-CAR建模方法

2.1 模型定阶

2.2 变量筛选

2.3 预测评价指标

3 实例分析

4 讨论

参考文献

第四章基于SVR和k-近邻群组合预测的QSAR研究

1 引言

2 数据集与方法

2.1 数据集

2.2 核函数选取与描述符筛选

2.3 全局预测与近邻群预测

2.4 基于近邻群的 SVR组合预测

2.5 预测评价指标及算法实现

3 结果与分析

3.1 最优核函数与保留描述符

3.2 全局预测与近邻群预测

3.3 组合预测

4 讨论

参考文献

致谢

作者简介

基于支持向量机的外显子与内含子识别及回归预测研究

论文摘要

论文目录

相关论文文献

猜你喜欢