基于C4.5算法的数据挖掘应用研究

基于C4.5算法的数据挖掘应用研究

论文摘要

近几十年来,数据库技术和海量存储器等硬件的快速发展使得人们收集数据的能力得到进一步的提高。面对信息时代海量数据的出现,如何有效地利用大量的原始数据分析现状以预测未来,已经成为人类面临的一大挑战。由此,数据挖掘技术应运而生并得以迅猛发展。目前,数据挖掘已经成为一个研究热点,数据挖掘所得到的知识能够为决策支持提供依据。Ⅱ型糖尿病患病率在全球范围内呈上升趋势,其隐匿起病、患病率随年龄增大而增加等特点表明这一疾病发展为渐进型疾病。针对这一疾病发生发展的规律,本文尝试用数据挖掘算法来发现规律,将数据挖掘算法引入Ⅱ型糖尿病的发病规律研究中,希望从大量的数据中学习Ⅱ型糖尿病的发病规律,挖掘出需要的数据和规则,构造糖尿病的分类和预侧系统。本文的原始数据来源于对患者的临床检验报告。临床检验报告的内容经过适当的转换存入数据库中作为原始数据。针对这些数据的不完整性、有噪声性和不一致性,本文用数据清理、数据变换、数据归约等数据挖掘的预处理技术处理这些原始数据。本文数据挖掘的任务是从众多的糖尿病数据中挖掘出致病规律,为糖尿病的预防,诊断和预测构造决策系统。由挖掘任务的分类性和对挖掘算法的要求,本文选用了决策树方法来进行数据挖掘。同时,由于糖尿病数据的连续性,选用了决策树方法中的C4.5算法作为数据挖掘算法。在实现C4.5算法的基础上,本文在糖尿病数据上进行了发病规律的学习和规则提取,在预处理过的数据的基础上生成了一组糖尿病的诊断与预测规则。并用分类法的保持评判方法评判其正确率。针对上述决策树对患病人群的正确率不够理想的情况,提出了以训练集的比例因子变量为参数,试验了患病人群的正确率和正确率均值随比例因子变量的变化关系给出了一个经过改进的分类器和判定患病人群的解决方案。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景及研究意义
  • 1.2 国内外研究情况综述
  • 1.3 本文工作
  • 第2章 数据挖掘
  • 2.1 数据挖掘系统
  • 2.2 数据挖掘过程
  • 2.3 数据挖掘的主要方法和技术
  • 2.4 数据挖掘研究内容和本质
  • 2.5 本章小结
  • 第3章 原始数据的预处理
  • 3.1 引言
  • 3.2 原始数据录入
  • 3.3 数据预处理过程
  • 3.3.1 数据清理
  • 3.3.2 数据变换
  • 3.3.3 数据规约
  • 3.4 算法的选择及依据
  • 3.4.1 分类与聚类
  • 3.4.2 算法的选择
  • 3.4.3 C4.5 算法
  • 3.5 本章小结
  • 第4章 基于C4.5 算法的数据分类研究
  • 4.1 引言
  • 4.2 数据处理
  • 4.2.1 类型定义
  • 4.2.2 程序流程
  • 4.2.3 运行环境
  • 4.3 实验结果分析
  • 4.3.1 分类法的准确性评判
  • 4.3.2 分类结果
  • 4.3.3 提高分类法的准确率
  • 4.4 本章小结
  • 第5章 C4.5 算法的改进模型
  • 5.1 引言
  • 5.2 决策树简化方法
  • 5.3 R-C4.5 决策树模型
  • 5.4 实验研究与分析
  • 5.5 本章小结
  • 结论
  • 附录
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于C4.5算法的数据挖掘应用研究
    下载Doc文档

    猜你喜欢