基于属性组合的随机森林

论文摘要

在机器学习领域的分类问题中,对于待分类的样例,当我们用于判断其类别的属性个数很多时,用传统的分类算法建立分类器,消耗较多的计算机时间和空间。近年来,研究学者们对数据集的属性组合进行了相关的研究,提出了很多种属性组合构造分类器的新思想,但是构建的属性组合分类器大多是在一个数据集上挑选属性组合建立一个分类器。由于选择属性组合的标准不同,各自又形成了不同的分类器,并且每一种构建方法都有其优点和缺点。同时,集成分类器的思想也有新的研究成果。本文基于学者们的已做工作,我们进行总结和创新,做了以下工作。本文首先提出用属性组合构建分类器的研究目的和意义。基于一些数据集中,条件属性过多这一特点,在本文中首先采用将数据集进行聚类的方法将相似的训练样例进行分堆,以便于更好的针对每一堆相似的样例挑选属性组合,生成针对于不同性质样例的分类器,并阐述了使用此种方法的优点。其次,基于学者们近年来的工作,阐述了多变量决策树的理论和方法。我们采用较少的、有针对性的对每一个数据聚类堆进行随机选择的属性,生成多棵多变量决策树。最后,根据每一个聚类堆构建的多棵多变量决策树形成随机森林来进行分类器的加权集成,从而试图覆盖数据集中的所有概念,进一步保证了分类的精度。通过以上工作,我们可以处理数据量大并且条件属性较多的数据集,通过选择较少的属性和属性组合构建多棵多变量决策树从而完成分类器的集成。通过实验证明,这种方法可以有效降低决策树这种分类器的规模,减小分类规则的数目,并且有效减小建树的时间开销,同时在一定程度上保证分类的准确性。

论文目录

摘要

Abstract

第1章绪论

1.1 研究背景

1.2 研究目的与意义

1.3 国内外发展现状

1.4 本文主要工作及内容安排

第2章聚类方法

2.1 聚类方法简介

2.2 常见的聚类方法

2.3 聚类算法的性质

2.4 K-MEANS聚类

2.5 本章小结

第3章属性决策和决策树简介

3.1 多属性决策问题简介

3.2 决策树简介

3.2.1 决策树的结构

3.2.2 决策树生成算法

3.2.3 决策树适用范围

第4章多变量决策树的分析和应用

4.1 粗糙集简介

4.2 多变量决策树介绍

4.3 多变量决策树构造算法

4.4 多变量决策树实验结果

4.4.1 使用多变量决策树前后实验结果对比

4.4.2 使用多变量决策树实验结果分析

第5章随机森林集成方法的分析和归纳

5.1 随机森林简介

5.2 分类器组合与集成方法

5.2.1 分类器组合

5.2.2 分类器集成

5.3 多变量决策树集成方法

5.4 实验步骤和结果

5.4.1 实验步骤

5.4.2 实验结果

5.5 本章小结

第6章总结与展望

6.1 研究总结

6.2 研究展望

参考文献

致谢

攻读学位期间取得的科研成果

基于属性组合的随机森林

论文摘要

论文目录

相关论文文献