论文摘要
分类是数据挖掘的一个重要研究分支,决策树模型是分类中最常用的一种方法,得到了广泛的研究和应用。然而,由于存在种类偏见和抗噪音差等问题,使决策树的优化成为关注的热点之一。本文基于粗糙集理论对决策树的构造方法和优化问题展开研究,主要工作如下:(1)综述并分析了决策树经典构造及优化方法。(2)以知识粗糙度作为决策树属性选择判据,提出决策树构造算法KRD,所构造的决策树的规模和分类精度比ID3有所提高。(3)提出一种混合变量决策树构造方法KRDH,根据知识粗糙度情况的不同,确定最佳的属性选择,以适应现实数据中噪音、属性相关性弱等问题。(4)为了提高决策树的抗噪性,提出基于统计模型的算法KRDlc,KRDlc算法在构造决策树的同时加上叶子生成控制参数,达到决策树的预剪枝,减少了噪音对属性选择的影响,避免了过拟合问题,同时减少了决策树的规模。
论文目录
摘要Abstract致谢第一章 导论1.1 数据挖掘概述1.1.1 数据挖掘的概念1.1.2 数据挖掘的对象1.1.3 数据挖掘方法的类型1.2 分类挖掘方法概述1.2.1 引言1.2.2 典型的分类挖掘方法1.2.3 分类挖掘面临的问题1.3 本文的课题来源和内容安排1.3.1 本文的课题来源1.3.2 本文的内容安排1.4 本章小结第二章 基于决策树的分类技术2.1 决策树技术概述2.1.1 决策树描述2.1.2 决策树的生成过程2.1.3 决策树的评价指标2.2 典型的决策树属性选择方法的类型2.2.1 以信息嫡为基础的分类方法2.2.2 以吉尼指标为基础的分类方法2.2.3 以编码形式为基础的分类方法2.2.4 典型决策树方法的特点比较2.3 决策树分类技术的优化研究2.3.1 优化研究的必要性2.3.2 几类典型的优化方法2.4 本章小结第三章 基于粗集的决策树生成算法研究3.1 粗糙集理论概述3.1.1 粗糙集理论的基本概念3.1.2 粗糙集理论的特点3.2 基于粗糙集的决策树经典算法及分析3.2.1 HACRs算法3.2.2 基于粗糙集的多变量决策树构造算法3.3 基于知识粗糙度度量的决策树构造算法 KRD3.3.1 相关定义3.3.2 KRD算法描述3.3.3 实验分析3.4 混合变量决策树构造算法KRDH3.4.1 混合变量决策树的定义3.4.2 KRDH算法描述3.4.3 实例3.4.4 实验分析3.5 本章小结第四章 决策树的剪枝方法探索4.1 引言4.1.1 分类中的过拟合问题4.1.2 过拟合产生的原因4.1.3 过拟合解决的方法4.2 决策树剪枝方法4.2.1 预剪枝法概述4.2.2 基于Pawlak粗糙集理论的决策树生成算法的缺陷4.2.3 一种基于统计阈值的决策树剪枝算法4.3 本章小结第五章 总结与展望5.1 工作总结5.2 工作展望参考文献研究生期间主要科研工作及成果
相关论文文献
标签:分类论文; 决策树论文; 粗糙集合论文; 过拟合论文; 剪枝论文;