五种决策树算法的比较研究

五种决策树算法的比较研究

论文摘要

决策树分类算法是数据挖掘领域中最为广泛研究和应用的一个课题,其优点是计算量小、速度快、分类准确率高、分类规则容易理解。目前经典的决策树算法有ID3、CART、C4.5、SLIQ等。为了解决连续属性以及数据中存在的不确定性等问题,模糊决策树应运而生。不同算法产生的决策树,在测试数据上的准确率、树的繁简程度等方面都有所不同。本文针对五种决策树算法,从分类的准确率、树的复杂程度(即生成树的叶子节点个数)、模糊决策树对连续属性的模糊化方法、分裂属性的选择方法以及决策树对样本空间划分的相似程度五个方面,在十七个UCI数据集上进行了详细的实验比较。对分类准确率的比较,我们应用了统计比较方法——Friedman测试方法。在对决策树的评价中,分类规则集的稳定性往往被忽略,即在多次实验中,我们得到的分类规则集对样本空间的划分是否相似及其相似程度如何,这样的问题往往不被重视。因此,本文提出了一种衡量决策树对样本空间划分的相似程度的评价方法,其主要目的是衡量某种决策树自身分类能力的稳定性和不同决策树分类能力的相似性。通过新视角去观测不同方法的异同,为我们“相信”分类结果、评价分类结果的稳定性以及解决不同问题选择不同算法提供了一个有意义的探索。本文将C4.5、CART、Fuzzy ID3、FS-DT和Yuan’s FDT五种决策树算法应用于UCI数据库的十七组数据集。实验结果表明,在统计意义下Fuzzy ID3的分类结果好于FS-DT,而CART的分类规则是最少的。在几组稳定性实验中,本文所定义的相似性概念给出了准确、合理的相似性值。通过比较发现,分类器的相似性往往依赖于分类器本身的特性及其所应用的数据集,分布混乱的数据更容易导致较低的相似性,这种规律在多个分类器上都有体现。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文研究内容
  • 1.4 本文组织结构
  • 2 决策树算法介绍及其评价标准
  • 2.1 决策树算法介绍
  • 2.1.1 决策树的定义
  • 2.1.2 决策树算法描述
  • 2.1.3 决策树算法的优缺点
  • 2.1.4 模糊决策树算法描述
  • 2.2 常见决策树算法简介
  • 2.2.1 C4.5算法
  • 2.2.2 CART算法
  • 2.2.3 Fuzzy ID3算法
  • 2.2.4 FS-DT算法
  • 2.2.5 Yuan's FDT算法
  • 2.2.6 SPRINT算法
  • 2.2.7 PUBLIC算法
  • 2.2.8 CHAID算法
  • 2.3 不同决策树算法优劣的评价标准
  • 3 五种决策树算法的对比研究
  • 3.1 分裂属性选择方法
  • 3.1.1 C4.5分裂属性选择方法
  • 3.1.2 CART分裂属性选择方法
  • 3.1.3 Fuzzy ID3分裂属性选择方法
  • 3.1.4 FS-DT分裂属性选择方法
  • 3.1.5 Yuan's FDT分裂属性选择方法
  • 3.1.6 五种决策树算法分裂属性的对比研究
  • 3.2 三种模糊决策树连续属性的模糊化方法
  • 3.2.1 Fuzzy ID3对连续属性的模糊化方法
  • 3.2.2 FS-DT对连续属性的模糊化方法
  • 3.2.3 Yuan's FDT对连续属性的模糊化方法
  • 3.2.4 三种模糊决策树模糊化方法的对比研究
  • 3.3 分类准确率
  • 3.4 叶子节点的多少
  • 3.5 样本空间划分的相似程度
  • 3.5.1 相似性的重要性
  • 3.5.2 相似性的定义
  • 3.5.3 与其它一致性评价方法的对比
  • 4 决策树算法在不同数据集上的实验比较
  • 4.1 数据集介绍
  • 4.2 实验建立
  • 4.3 比较结果分析
  • 4.3.1 准确率比较
  • 4.3.2 叶子节点比较
  • 4.3.3 相似性比较
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].决策树算法在塑料分类中的应用[J]. 塑料科技 2020(06)
    • [2].采用信息散布指数的改进决策树算法[J]. 数学的实践与认识 2020(14)
    • [3].面向信用评级的有决策树算法研究[J]. 齐齐哈尔大学学报(自然科学版) 2020(04)
    • [4].基于决策树算法的心脏病发病预警模型研究[J]. 电脑知识与技术 2020(19)
    • [5].决策树算法的研究综述[J]. 现代营销(下旬刊) 2017(01)
    • [6].数据挖掘中决策树算法的应用研究[J]. 电脑编程技巧与维护 2017(14)
    • [7].面向大数据分析的决策树算法[J]. 信息系统工程 2017(07)
    • [8].基于决策树算法的爬虫识别技术[J]. 软件 2017(07)
    • [9].面向大数据分析的决策树算法[J]. 计算机科学 2016(S1)
    • [10].一种面向大数据分析的快速并行决策树算法[J]. 云南大学学报(自然科学版) 2020(02)
    • [11].决策树算法在健康监测设备自动连接中的应用[J]. 自动化与仪表 2020(06)
    • [12].决策树算法在人才招聘简历筛选中的应用[J]. 企业改革与管理 2020(17)
    • [13].基于分布式运算的决策树算法的研究与实现[J]. 南通职业大学学报 2017(01)
    • [14].数据挖掘中决策树算法的研究[J]. 世界科技研究与发展 2009(04)
    • [15].一种改进的决策树算法研究[J]. 电脑知识与技术 2015(11)
    • [16].决策树算法综述[J]. 软件导刊 2015(11)
    • [17].一种新的基于粗糙集的概念模糊化决策树算法[J]. 新课程学习(中) 2014(09)
    • [18].决策树算法及其改进[J]. 科技创新导报 2014(12)
    • [19].逆向快速决策树算法概要[J]. 计算机应用研究 2011(12)
    • [20].基于决策树算法的疾病诊断分析[J]. 中国卫生信息管理杂志 2011(05)
    • [21].数据挖掘中的决策树算法比较研究[J]. 中国科技信息 2010(02)
    • [22].决策树算法在物流仓储中的研究与应用[J]. 微计算机信息 2010(30)
    • [23].决策树算法分析及其在实际应用中的改进[J]. 铜陵学院学报 2010(06)
    • [24].智能模糊决策树算法在英语机器翻译中的应用[J]. 计算机测量与控制 2020(10)
    • [25].决策树算法的比较与应用研究[J]. 华北电力技术 2017(06)
    • [26].决策树算法研究[J]. 课程教育研究 2018(48)
    • [27].改进决策树算法的应用研究[J]. 电子科技 2010(09)
    • [28].改进的多关系决策树算法[J]. 计算机应用研究 2009(12)
    • [29].浅谈数据挖掘中的决策树算法[J]. 福建电脑 2008(11)
    • [30].基于决策树算法的水位观测干扰识别模型[J]. 国际地震动态 2019(11)

    标签:;  ;  ;  ;  

    五种决策树算法的比较研究
    下载Doc文档

    猜你喜欢