论文摘要
支撑向量机(Support Vector Machine,SVM)是近年来受到广泛关注的一类学习机器,它以统计学习理论(Statistical Learning Theory,SLT)为基础,具有简洁的数学形式、标准快捷的训练方法和良好的泛化性能,已广泛应用于模式识别、函数估计和时间序列预测等数据挖掘问题。目前SVM的研究热点主要有:SVM的模型选择、快速学习算法研究等。由于支撑向量机是一种基于核的学习方法,所以核及相关参数的选取对泛化能力有着重要的影响,进而对支撑向量机的性能也有着重要的影响。如何有效地进行核及相关参数的选择是支撑向量机研究领域的一个重要问题。本文对于SVM的核及相关参数的选择问题进行了系统研究,主要内容如下:(1)对现有的核函数及核选择方法进行了详细的分析和研究。(2)给出了四种测试训练集几何分布的算法。本文利用分类问题的几何意义直接从数据集出发,按照两类样本点之间的距离关系,分别给出SVM训练集呈圆形、环形、球状、柱状分布的测试算法,为基于数据分布的核选择方法提供了实现的基础。(3)提出了基于数据分布的核函数及参数选择方法。目前大多数核选择方法都不考虑数据的分布特征,没有充分利用隐含在数据中的信息。如果已知数据的分布特征或可得到其数据分布特征的近似,在此基础上,再进行SVM核函数及其参数的选择,则可提高SVM的泛化能力。本文在确定训练数据集几何分布的基础上,从给定的核函数集中选择一种最恰当的核函数,应用到支撑向量机上,以期获得最优的性能。(4)给出了数据呈某种分布时分类效果最佳的核函数选择方法。论文分别选取了坐标变换核、高斯核和多项式核函数作为研究对象,在人工数据集和真实数据集上进行了测试,验证了本文所提出方法的可行性和有效性。本文研究的内容是SVM研究中的热点问题之一,研究结果不仅具有重要的理论意义,而且对于实际问题具有直接的应用价值。