论文摘要
在机器学习领域的分类问题中,对于待分类的样例,当我们用于判断其类别的属性个数很多时,用传统的分类算法建立分类器,消耗较多的计算机时间和空间。近年来,研究学者们对数据集的属性组合进行了相关的研究,提出了很多种属性组合构造分类器的新思想,但是构建的属性组合分类器大多是在一个数据集上挑选属性组合建立一个分类器。由于选择属性组合的标准不同,各自又形成了不同的分类器,并且每一种构建方法都有其优点和缺点。同时,集成分类器的思想也有新的研究成果。本文基于学者们的已做工作,我们进行总结和创新,做了以下工作。本文首先提出用属性组合构建分类器的研究目的和意义。基于一些数据集中,条件属性过多这一特点,在本文中首先采用将数据集进行聚类的方法将相似的训练样例进行分堆,以便于更好的针对每一堆相似的样例挑选属性组合,生成针对于不同性质样例的分类器,并阐述了使用此种方法的优点。其次,基于学者们近年来的工作,阐述了多变量决策树的理论和方法。我们采用较少的、有针对性的对每一个数据聚类堆进行随机选择的属性,生成多棵多变量决策树。最后,根据每一个聚类堆构建的多棵多变量决策树形成随机森林来进行分类器的加权集成,从而试图覆盖数据集中的所有概念,进一步保证了分类的精度。通过以上工作,我们可以处理数据量大并且条件属性较多的数据集,通过选择较少的属性和属性组合构建多棵多变量决策树从而完成分类器的集成。通过实验证明,这种方法可以有效降低决策树这种分类器的规模,减小分类规则的数目,并且有效减小建树的时间开销,同时在一定程度上保证分类的准确性。