改进的ID3决策树分类算法在成绩分析中的应用研究

改进的ID3决策树分类算法在成绩分析中的应用研究

论文摘要

数据挖掘是2 0世纪末兴起的数据智能分析技术,它可以从数据库、数据仓库以及其它各种数据库中的大量数据中,自动抽取或发现有用的模式知识。在这一过程中,数据分类是数据挖掘领域研究的重要课题。目前用于分类的方法有很多种,其中决策树分类方法以其算法理论清晰、易被理解以及容易转换成分类规则等优点而被广泛研究与应用。本文以“嵌入式系统网上智能教学平台”建设为背景,目的是研究如何将数据挖掘技术与现有的数据库系统相结合,从海量特征的数据中提取出隐藏在数据之中的有用信息,为系统管理者和决策者提供综合分析。通过对数据挖掘基本原理、基本算法的研究。开发了基于决策树算法的学生评估工具模块。以改进的决策树ID3算法为基础,根据学生成绩库中的信息以及其它库中有关学生基本数据的信息,建立一个决策树成绩评估模型,对学生进行相应的综合分析评估。通过对几种典型的决策树算法进行分析比较,本文提出一种改进的ID3算法。该算法的思想是首先将泰勒公式原理与ID3算法的属性选择标准一信息熵的求解相结合,对ID3算法信息熵的求解进行简化,改变了决策树算法中属性选择的标准,减小了算法的计算复杂度,提高了算法运行效率;然后再赋予每个属性简化后的信息熵一个权值N,N的取值取决于每个属性的取值个数,用以平衡每个属性对数据集的不确定程度,使得属性的选择更加合理化,避免选择的属性与实际不相符。最后在Eclipse平台上利用Java语言分别实现改进前后的ID3算法。实验结果表明,改进后的ID3算法提高了决策树的构建速度,减少了算法的计算运行时间,同时也克服了ID3算法往往偏向于选择取值较多的属性作为测试属性的缺陷。并且随着数据规模的增大,决策树的分类性能表现得越好。理论分析和实验结果表明,本文提出的改进算法改善了原始决策树ID3算法的性能,表现出了良好的分类效果。

论文目录

  • 摘要
  • ABSTRACT
  • 绪论
  • 一 问题的提出
  • 二 数据挖掘的应用现状
  • 三 本文结构
  • 第一章 数据挖掘分类技术
  • 1.1 数据挖掘基本知识
  • 1.1.1 数据挖掘概念
  • 1.1.2 数据挖掘的基本任务
  • 1.1.3 数据挖掘的基本技术
  • 1.1.4 数据挖掘的实施步骤
  • 1.2 数据挖掘分类技术基本知识
  • 1.2.1 分类基本概念
  • 1.2.2 分类基本算法
  • 1.2.3 分类准确度评估方法
  • 本章小结
  • 第二章 决策树分类算法
  • 2.1 决策树方法介绍
  • 2.1.1 决策树描述
  • 2.1.2 决策树生成过程
  • 2.1.3 决策树分类算法的生成指标
  • 2.2 几种常见的决策树分类算法
  • 2.2.1 ID3 算法简介
  • 2.2.2 C4.5 算法简介
  • 2.2.3 CART 算法简介
  • 2.2.4 SLIQ 算法简介
  • 2.2.5 SPRINT 算法简介
  • 2.2.6 PUBLIC 算法简介
  • 2.2.7 算法比较
  • 2.3 基于信息论的ID3 算法
  • 2.3.1 信息论在ID3 算法中的应用
  • 2.3.2 ID3 算法原理
  • 2.3.3 ID3 算法描述
  • 2.3.4 ID3 算法优缺点
  • 本章小结
  • 第三章 改进的决策树ID3 算法
  • 3.1 ID3 算法的缺点
  • 3.2 改进算法的理论基础
  • 3.2.1 理论基础
  • 3.2.2 克服选择属性的偏向
  • 3.2.3 属性选择标准的改进
  • 3.3 改进的算法
  • 3.3.1 算法步骤
  • 3.3.2 算法数据结构
  • 3.3.3 算法流程图
  • 3.3.4 算法实现
  • 本章小结
  • 第四章 改进的ID3 算法在学生成绩中的应用
  • 4.1 解决方案
  • 4.2 数据预处理
  • 4.2.1 数据采集
  • 4.2.2 数据清洗
  • 4.2.3 数据消减
  • 4.3 采用改进的ID3 算法进行数据挖掘
  • 4.3.1 类别属性信息熵的计算
  • 4.3.2 非类别属性信息熵的计算
  • 4.3.3 信息增益的计算
  • 4.3.4 递归创建决策树
  • 4.3.5 生成决策规则
  • 4.4 实验结果和比较
  • 4.4.1 时间复杂度分析
  • 4.4.2 构造决策树选择属性分析
  • 4.4.3 分类规则分析
  • 4.4.4 分类性能分析
  • 本章小结
  • 第五章 实例研究—学生成绩分析评估系统
  • 5.1 开发环境和相关技术
  • 5.1.1 开发环境
  • 5.1.2 体系构架
  • 5.1.3 相关技术
  • 5.2 系统功能概要设计
  • 5.2.1 需求分析
  • 5.2.2 功能需求
  • 5.2.3 系统流程
  • 5.3 系统功能模块设计
  • 5.3.1 数据预处理模块
  • 5.3.2 决策树生成模块
  • 5.3.3 决策树剪枝模块
  • 5.3.4 结果评价模块
  • 5.3.5 系统预测功能模块
  • 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    改进的ID3决策树分类算法在成绩分析中的应用研究
    下载Doc文档

    猜你喜欢