论文摘要
数据挖掘是一种能够从海量数据中提取有价值信息的技术。它可用于发现隐藏在数据中的聚类模式、关联模式、分类模式等,以辅助人们决策。其中,分类是数据挖掘的一项重要任务,而决策树就是一种能有效用于数据分类的方法。决策树结构简单、容易产生规则、易于理解,在实际中应用极为广泛。首先,本文基于粗糙集理论改进决策树算法。先利用粗糙集理论进行决策表的属性约简,再进行基于粗糙集的决策树构建。经典粗糙集存在着处理噪声数据能力差的不足。为此,本文基于变精度粗糙集的思想对蒋芸博士等(2004)提出的决策树算法进行改进,提出变精度加权平均粗糙度的决策树构造算法。实验结果表明改进后算法构造的决策树结构简洁,泛化能力更强。其次,本文还将提出基于属性区分度的决策树构造算法。其主要思想是决策树的每一次分枝都尽可能使属于不同决策类的数据分开,而使属于同一决策类的数据集中在一起。同样,仿真实验结果表明该算法在多数数据集上构造的决策树比经典的ID3算法要好。最后,本文以电信业客户关系管理(CRM)为背景,基于数据挖掘的基本流程,在一个电信客户流失数据集上分别以ID3算法以及本文改进和提出的决策树算法构建一个客户流失预警模型。模型结果比较表明后两者构建的模型均优于前者。
论文目录
摘要ABSTRACT第1章 绪论1.1 选题的背景和意义1.2 研究的历史和现状1.3 论文的组织结构第2章 数据挖掘与客户关系管理2.1 数据挖掘理论2.1.1 数据挖掘的概念2.1.2 数据挖掘的过程2.1.3 数据挖掘的任务及技术2.2 客户关系管理(CRM)2.3 数据挖掘在客户关系管理中的应用2.4 本章小结第3章 相关理论介绍3.1 粗糙集理论3.1.1 知识与不可区分关系3.1.2 信息系统与决策表3.1.3 上下近似与粗糙集3.1.4 属性约简与属性依赖3.2 决策树理论3.2.1 决策树的生成3.2.2 决策树的剪枝3.2.3 决策树的评价3.2.4 基于信息熵的ID3算法3.3 本章小结第4章 基于粗糙集的决策树构造算法改进4.1 引言4.2 测试属性约简4.2.1 新决策表形式4.2.2 新决策表属性重要度代数表示4.2.3 新决策表属性约简算法4.2.4 决策表属性约简算例4.3 WMR算法及分析4.4 变精度粗糙集模型4.5 基于变精度粗集的决策树改进方法4.5.1 属性选择原理4.5.2 VWMR算法描述4.5.3 算例对比4.6 仿真实验4.7 本章小结第5章 一种基于属性区分度决策树构造算法5.1 引言5.2 属性选择原理5.3 算法描述5.4 简单算例5.5 仿真实验5.6 本章小结第6章 决策树在电信客户流失管理中的应用6.1 电信业客户流失分析的意义6.2 电信业客户流失建模实例6.2.1 分析目的6.2.2 电信数据描述6.2.3 数据理解和准备6.2.4 建立模型6.2.5 模型评估与解释6.3 本章小结结束语参考文献致谢在学期间发表的学术论文与研究成果
相关论文文献
标签:数据挖掘论文; 粗糙集论文; 决策树论文; 客户流失论文;