Print

基于知识粗糙度度量的决策树构造方法研究

论文摘要

分类是数据挖掘的一个重要研究分支,决策树模型是分类中最常用的一种方法,得到了广泛的研究和应用。然而,由于存在种类偏见和抗噪音差等问题,使决策树的优化成为关注的热点之一。本文基于粗糙集理论对决策树的构造方法和优化问题展开研究,主要工作如下:(1)综述并分析了决策树经典构造及优化方法。(2)以知识粗糙度作为决策树属性选择判据,提出决策树构造算法KRD,所构造的决策树的规模和分类精度比ID3有所提高。(3)提出一种混合变量决策树构造方法KRDH,根据知识粗糙度情况的不同,确定最佳的属性选择,以适应现实数据中噪音、属性相关性弱等问题。(4)为了提高决策树的抗噪性,提出基于统计模型的算法KRDlc,KRDlc算法在构造决策树的同时加上叶子生成控制参数,达到决策树的预剪枝,减少了噪音对属性选择的影响,避免了过拟合问题,同时减少了决策树的规模。

论文目录

  • 摘要
  • Abstract
  • 致谢
  • 第一章 导论
  • 1.1 数据挖掘概述
  • 1.1.1 数据挖掘的概念
  • 1.1.2 数据挖掘的对象
  • 1.1.3 数据挖掘方法的类型
  • 1.2 分类挖掘方法概述
  • 1.2.1 引言
  • 1.2.2 典型的分类挖掘方法
  • 1.2.3 分类挖掘面临的问题
  • 1.3 本文的课题来源和内容安排
  • 1.3.1 本文的课题来源
  • 1.3.2 本文的内容安排
  • 1.4 本章小结
  • 第二章 基于决策树的分类技术
  • 2.1 决策树技术概述
  • 2.1.1 决策树描述
  • 2.1.2 决策树的生成过程
  • 2.1.3 决策树的评价指标
  • 2.2 典型的决策树属性选择方法的类型
  • 2.2.1 以信息嫡为基础的分类方法
  • 2.2.2 以吉尼指标为基础的分类方法
  • 2.2.3 以编码形式为基础的分类方法
  • 2.2.4 典型决策树方法的特点比较
  • 2.3 决策树分类技术的优化研究
  • 2.3.1 优化研究的必要性
  • 2.3.2 几类典型的优化方法
  • 2.4 本章小结
  • 第三章 基于粗集的决策树生成算法研究
  • 3.1 粗糙集理论概述
  • 3.1.1 粗糙集理论的基本概念
  • 3.1.2 粗糙集理论的特点
  • 3.2 基于粗糙集的决策树经典算法及分析
  • 3.2.1 HACRs算法
  • 3.2.2 基于粗糙集的多变量决策树构造算法
  • 3.3 基于知识粗糙度度量的决策树构造算法 KRD
  • 3.3.1 相关定义
  • 3.3.2 KRD算法描述
  • 3.3.3 实验分析
  • 3.4 混合变量决策树构造算法KRDH
  • 3.4.1 混合变量决策树的定义
  • 3.4.2 KRDH算法描述
  • 3.4.3 实例
  • 3.4.4 实验分析
  • 3.5 本章小结
  • 第四章 决策树的剪枝方法探索
  • 4.1 引言
  • 4.1.1 分类中的过拟合问题
  • 4.1.2 过拟合产生的原因
  • 4.1.3 过拟合解决的方法
  • 4.2 决策树剪枝方法
  • 4.2.1 预剪枝法概述
  • 4.2.2 基于Pawlak粗糙集理论的决策树生成算法的缺陷
  • 4.2.3 一种基于统计阈值的决策树剪枝算法
  • 4.3 本章小结
  • 第五章 总结与展望
  • 5.1 工作总结
  • 5.2 工作展望
  • 参考文献
  • 研究生期间主要科研工作及成果
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/d8719ad135b1eeb38abbed3e.html