基于SVM-RFE的潜在生物标志物选择算法研究

论文摘要

我们处于信息大爆炸的时代,数据挖掘技术突显的异常重要。从海量的数据中挖掘出关键的信息,可以大大的减少工作量达到事半功倍的效果。在海量的数据中往往隐含着某种规律,通过数据挖掘技术将其发现,就可以掌握事物发展的规律,进而达到预测以后事情的发生的目的,对于农业、气象、地震灾害等等的预报可以起到至关重要的作用。多元统计分析的方法和机器学习、模式识别的方法是在数据挖掘中常用的一些方法。基于支持向量机（SVM）的特征选择算法SVM-RFE,是目前应用广泛且表现优越的特征选择算法之一。由于数据集中噪音的存在,往往影响SVM-RFE特征选择算法的性能。本文提出了一种使用ReliefF算法来辅助SVM对特征进行评价的方法。本文使用交叉验证的方法在数据集合上对这种SVM-ReliefF-RFE方法进行了测试,并与原始的SVM-RFE进行了比较。本文的方法的实验结果比SVM-RFE在平均准确率上至少提高0.66%,最多能提高3.60%,实验的结果表明利用ReliefF辅助SVM进行特征选择的方法能够更加有效的发现体现数据潜在信息的特征集合。接着,本文又提出了另一种两阶段的特征选择方法,通过第一个阶段采用人工变量对噪音进行过滤,首先将数据集中的噪音数据和不相关的数据进行滤除,滤噪之后的数据进入第二个阶段的SVM-RFE特征选择。通过实验测试,结果表明两阶段的方法比原始的SVM-RFE在分类预测准确率上有平均1.74%的提高。所选择的特征变量也具有显著性的差异。本文通过从两个不同的角度对原始数据进行滤噪,从分类的准确率上改进了原始SVM-RFE特征选择算法的性能,通过对所选特征子集的分析更进一步验证了本文所提方法的优越性。

论文目录

摘要

Abstract

1 绪论

1.1 数据挖掘

1.2 本文的主要工作

2 数据挖掘技术

2.1 统计学方法

2.2 无监督的模式识别方法

2.3 有监督的模式识别方法

2.3.1 偏最小二乘判别分析

2.3.2 支持向量机

2.4 特征选择方法

2.4.1 ReliefF特征选择方法

2.4.2 SVM-RFE特征选择方法

2.5 本章小结

3 SVM-ReliefF-RFE特征选择方法

3.1 基于SVM-RFE和ReliefF的特征选择算法

3.2 研究问题的背景及数据预处理方法

3.2.1 研究背景

3.2.2 样本数据信息

3.2.3 数据预处理方法

3.3 实验结果

3.3.1 分类预测性能的比较

3.3.2 PCA得分图

3.3.3 潜在生物标记物分析

3.4 SVM-ReliefF-RFE在其他数据集上的测试

3.5 本章小结

4 基于人工变量滤噪和SVM-RFE的特征选择方法

4.1 基于SVM的人工变量滤噪

4.2 两阶段的特征选择方法

4.3 实验结果分析与讨论

4.3.1 实验数据的信息

4.3.2 数据预处理

4.3.3 分类预测性能的比较

4.3.4 两阶段方法选择的特征分析

4.4 本章小结

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

基于SVM-RFE的潜在生物标志物选择算法研究

论文摘要

论文目录

相关论文文献

猜你喜欢