论文摘要
随着人类社会和计算机技术的飞速发展,电子数据的积累出现了爆炸式的增长。这些海量的电子数据里面无疑隐藏着丰富的对人类深具价值的知识,而传统的数据分析工具只能利用其中的很少一部分。近年来不断完善发展的数据挖掘技术恰恰能帮助人们从数据中发现大量的隐藏知识,而分类正是其中的极其重要的技术方法。准确率、速度、强壮性、可伸缩性、可解释性是评估分类方法的五条标准,其中准确率又是重中之重。本文在这几方面研究、分析了国内外比较流行的若干种分类方法:决策树分类、贝叶斯分类、神经网络分类、支持向量机分类等等。在这些方法中,决策树是采用最广泛的模型之一。本文重点以决策树为研究对象,研究涉及决策树建立过程中的各个主要环节,对决策树现在及未来发展中遇到的主要问题做了比较深入的研究,提出了一些切实有效的新方法改善决策树的性能,为决策树的进一步应用做出了自己的贡献。本文所涉及的决策树与其它数据挖掘方法交叉的共同环节,如属性选择、降维、连续属性离散化等不仅可以用来改善决策树的性能,也可用于改善其它数据挖掘方法,对于数据挖掘技术的发展具有积极的意义。本文主要研究工作包括以下几个方面:(1)引入了一种新的降维方法;(2)提出了加权二分查找算法进行连续属性离散化;(3)改进了传统的基于信息熵的属性选择标准;(4)基于以上三方面工作,对传统决策树进行优化整合,给出了改进算法的流程,并通过实验数据与C4.5算法进行比较,证明了该算法的优势。
论文目录
摘要Abstract图目录表目录第一章 绪论1.1 研究背景1.1.1 数据挖掘技术的产生和定义1.1.2 国内外研究现状1.2 研究内容1.3 本文的组织结构1.4 本章小结第二章 基本分类方法的研究和分析2.1 分类的定义和过程2.2 分类方法的评估2.3 决策树分类2.4 贝叶斯分类2.4.1 贝叶斯定理2.4.2 朴素贝叶斯分类2.4.3 贝叶斯信念网络2.5 神经网络分类2.5.1 神经网络分类器结构2.6 支持向量机分类2.7 其他方法2.8 本章小结第三章 决策树的构造和简化3.1 决策树的构造和简化3.2 剪枝算法3.2.1 前期剪枝3.2.2 后期剪枝3.2.3 剪枝优化的原则3.3 常见决策树算法3.3.1 CLS算法3.3.2 ID3算法3.3.3 C4.5算法3.3.4 其他算法3.4 对几种算法的评价3.5 本章小结第四章 决策树改进研究4.1 引言4.2 裁减属性降维4.2.1 属性重要性排序4.2.2 RBF神经网络4.2.3 实验验证4.3 连续属性离散化4.4 属性选择标准研究4.4.1 改进的理论基础4.4.2 克服选择属性时的偏向4.4.3 属性选择标准的改进4.4.4 实验验证4.5 本章小结第五章 决策树优化整合5.1 引言5.2 算法改进5.3 应用验证5.4 本章小结第六章 总结与展望6.1 本文总结6.2 后续工作和研究前景6.3 本章小结参考文献致谢作者简历
相关论文文献
标签:数据挖掘论文; 决策树论文; 离散化论文; 属性降维论文; 属性选择论文;