论文摘要
分类问题是机器学习和数据挖掘等领域的研究热点。决策树(Decision Tree)是最重要的分类算法之一,其优点在于分类精度高且具有可解释性。决策树在商业决策、医疗诊断分析等方面有着广泛的应用。公理模糊集(Axiomatic Fuzzy Sets, AFS)理论是一种处理模糊信息的新语义方法,其本质是研究如何把蕴含在训练数据或数据库中的内在规律或模式转化到模糊集及其逻辑运算中。AFS理论已经应用到知识表示、聚类分析、模糊分类等方面。本文结合AFS理论提出了几种基于决策树的模糊分类算法,另外还对分类问题中涉及的数据预处理及分类器评价问题进行了研究。本文主要研究工作包括:1.在AFS理论框架下,提出了一种模糊决策树分类器,称为AFS决策树。AFS决策树在阈值δ使用最大模糊信息增益选择节点的分裂属性,因此树结构受到阈值δ的影响。应用遗传算法优化参数δ,即优化AFS决策树的结构,使其在保证准确率的基础上尽可能的选择较小规模的决策树。另外给出了确定叶子节点类标签的新方法,将叶子节点所“覆盖”训练样本的主要类别作为其类标签。最后提出了一个置信度函数对分类结果进行分析,给出分类结果的可信程度。AFS理论的引入,使得该分类器可以应用到离散、连续、布尔、序关系等形式的数据上,且模糊集的隶属函数由AFS理论依据数据自动给出。在28个UCI数据集上和SVM、KNN、C4.5、FDTs、FS-DT、FARC及FURIA分类算法进行了实验比较。实验结果的统计分析显示,该算法能够获得最高的分类准确率,且显著地好于KNN、C4.5、FDTs和FS-DT算法。2.决策树分类算法的关键技术是如何选择节点的分裂属性。利用模糊集合的模糊度,提出了基于闵可夫斯基模糊度的模糊决策树分类方法。将决策树的节点视作各类样本分布频率的模糊集合,利用闵可夫斯基模糊度来监测节点分裂前后模糊度的变化,选择能使闵可夫斯基模糊度下降最多的属性作为该节点的分裂属性。另外,从理论上证明了阈值δ与树结构之间的关系:如果δ1>δ2,那么δ1对应的决策树可由δ2对应的决策树通过恰当地删减子树得到。这为通过剪枝优化树结构,寻找较小的决策树提供了理论基础。通过在16个UCI数据集上和基于GINI index和Min-Ambiguity分裂属性选择标准的模糊决策树的比较发现,与上述两种模糊决策树相比,基于闵可夫斯基模糊度的决策树在取得较高的分类准确率的同时也能得到较小的决策树。3.在模型树分类算法和AFS理论基础上,提出了AFS based Pattern Tree Rules (AFSPTR)分类算法。该算法通过模糊概念的聚合产生模糊分类规则,聚合前用AFS隶属函数依数据对特征空间进行模糊划分,然后利用新的聚合目标函数对模糊概念进行聚合。聚合目标函数由模糊相似度和模糊熵度量两部分组成,一方面刻画了聚合结果与目标类别之间的相似性,另一方面描述了在聚合结果下目标类别与其他类别之间的相异性,这实质上是AFSPTR在准确性和简单性之间的一种平衡。在8个UCI数据集上和C4.5、Decision Table、JRip、NNge、OneR、PART及Ridor七种基于分类规则的分类器进行了准确率、规则集复杂度的比较。统计结果表明,AFSPTR算法在8个数据集上得到了最小的分类规则集,且其分类准确率显著地好于Decision Table和OneR方法.4.首先提出了一种基于仿射传播聚类的样本选择方法(APIS).APIS将训练数据聚为若干类别,将所有的类代表样本作为新训练样本训练分类器。其次提出了一种基于特征空间划分相似度的分类规则集一致性评价方法。先用分类规则将特征空间进行划分,然后找出每条分类规则的核空间,最后通过不同规则集的核空间的相似度来确定两个规则集的一致性。这种一致性不仅可以用来评价两个规则集的分类知识是否一致、判断已有的规则知识库是否需要更新,而且还可以作为选择分类器的依据。实验部分在17个数据集上比较了5种决策树算法之间的相似性,验证了C4.5算法在不同数据集上的一致性。