数据挖掘分类算法研究

数据挖掘分类算法研究

论文摘要

随着人类社会和计算机技术的飞速发展,电子数据的积累出现了爆炸式的增长。这些海量的电子数据里面无疑隐藏着丰富的对人类深具价值的知识,而传统的数据分析工具只能利用其中的很少一部分。近年来不断完善发展的数据挖掘技术恰恰能帮助人们从数据中发现大量的隐藏知识,而分类正是其中的极其重要的技术方法。准确率、速度、强壮性、可伸缩性、可解释性是评估分类方法的五条标准,其中准确率又是重中之重。本文在这几方面研究、分析了国内外比较流行的若干种分类方法:决策树分类、贝叶斯分类、神经网络分类、支持向量机分类等等。在这些方法中,决策树是采用最广泛的模型之一。本文重点以决策树为研究对象,研究涉及决策树建立过程中的各个主要环节,对决策树现在及未来发展中遇到的主要问题做了比较深入的研究,提出了一些切实有效的新方法改善决策树的性能,为决策树的进一步应用做出了自己的贡献。本文所涉及的决策树与其它数据挖掘方法交叉的共同环节,如属性选择、降维、连续属性离散化等不仅可以用来改善决策树的性能,也可用于改善其它数据挖掘方法,对于数据挖掘技术的发展具有积极的意义。本文主要研究工作包括以下几个方面:(1)引入了一种新的降维方法;(2)提出了加权二分查找算法进行连续属性离散化;(3)改进了传统的基于信息熵的属性选择标准;(4)基于以上三方面工作,对传统决策树进行优化整合,给出了改进算法的流程,并通过实验数据与C4.5算法进行比较,证明了该算法的优势。

论文目录

  • 摘要
  • Abstract
  • 图目录
  • 表目录
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 数据挖掘技术的产生和定义
  • 1.1.2 国内外研究现状
  • 1.2 研究内容
  • 1.3 本文的组织结构
  • 1.4 本章小结
  • 第二章 基本分类方法的研究和分析
  • 2.1 分类的定义和过程
  • 2.2 分类方法的评估
  • 2.3 决策树分类
  • 2.4 贝叶斯分类
  • 2.4.1 贝叶斯定理
  • 2.4.2 朴素贝叶斯分类
  • 2.4.3 贝叶斯信念网络
  • 2.5 神经网络分类
  • 2.5.1 神经网络分类器结构
  • 2.6 支持向量机分类
  • 2.7 其他方法
  • 2.8 本章小结
  • 第三章 决策树的构造和简化
  • 3.1 决策树的构造和简化
  • 3.2 剪枝算法
  • 3.2.1 前期剪枝
  • 3.2.2 后期剪枝
  • 3.2.3 剪枝优化的原则
  • 3.3 常见决策树算法
  • 3.3.1 CLS算法
  • 3.3.2 ID3算法
  • 3.3.3 C4.5算法
  • 3.3.4 其他算法
  • 3.4 对几种算法的评价
  • 3.5 本章小结
  • 第四章 决策树改进研究
  • 4.1 引言
  • 4.2 裁减属性降维
  • 4.2.1 属性重要性排序
  • 4.2.2 RBF神经网络
  • 4.2.3 实验验证
  • 4.3 连续属性离散化
  • 4.4 属性选择标准研究
  • 4.4.1 改进的理论基础
  • 4.4.2 克服选择属性时的偏向
  • 4.4.3 属性选择标准的改进
  • 4.4.4 实验验证
  • 4.5 本章小结
  • 第五章 决策树优化整合
  • 5.1 引言
  • 5.2 算法改进
  • 5.3 应用验证
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 本文总结
  • 6.2 后续工作和研究前景
  • 6.3 本章小结
  • 参考文献
  • 致谢
  • 作者简历
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    数据挖掘分类算法研究
    下载Doc文档

    猜你喜欢