论文摘要
我们处于信息大爆炸的时代,数据挖掘技术突显的异常重要。从海量的数据中挖掘出关键的信息,可以大大的减少工作量达到事半功倍的效果。在海量的数据中往往隐含着某种规律,通过数据挖掘技术将其发现,就可以掌握事物发展的规律,进而达到预测以后事情的发生的目的,对于农业、气象、地震灾害等等的预报可以起到至关重要的作用。多元统计分析的方法和机器学习、模式识别的方法是在数据挖掘中常用的一些方法。基于支持向量机(SVM)的特征选择算法SVM-RFE,是目前应用广泛且表现优越的特征选择算法之一。由于数据集中噪音的存在,往往影响SVM-RFE特征选择算法的性能。本文提出了一种使用ReliefF算法来辅助SVM对特征进行评价的方法。本文使用交叉验证的方法在数据集合上对这种SVM-ReliefF-RFE方法进行了测试,并与原始的SVM-RFE进行了比较。本文的方法的实验结果比SVM-RFE在平均准确率上至少提高0.66%,最多能提高3.60%,实验的结果表明利用ReliefF辅助SVM进行特征选择的方法能够更加有效的发现体现数据潜在信息的特征集合。接着,本文又提出了另一种两阶段的特征选择方法,通过第一个阶段采用人工变量对噪音进行过滤,首先将数据集中的噪音数据和不相关的数据进行滤除,滤噪之后的数据进入第二个阶段的SVM-RFE特征选择。通过实验测试,结果表明两阶段的方法比原始的SVM-RFE在分类预测准确率上有平均1.74%的提高。所选择的特征变量也具有显著性的差异。本文通过从两个不同的角度对原始数据进行滤噪,从分类的准确率上改进了原始SVM-RFE特征选择算法的性能,通过对所选特征子集的分析更进一步验证了本文所提方法的优越性。