论文摘要
数据挖掘是2 0世纪末兴起的数据智能分析技术,它可以从数据库、数据仓库以及其它各种数据库中的大量数据中,自动抽取或发现有用的模式知识。在这一过程中,数据分类是数据挖掘领域研究的重要课题。目前用于分类的方法有很多种,其中决策树分类方法以其算法理论清晰、易被理解以及容易转换成分类规则等优点而被广泛研究与应用。本文以“嵌入式系统网上智能教学平台”建设为背景,目的是研究如何将数据挖掘技术与现有的数据库系统相结合,从海量特征的数据中提取出隐藏在数据之中的有用信息,为系统管理者和决策者提供综合分析。通过对数据挖掘基本原理、基本算法的研究。开发了基于决策树算法的学生评估工具模块。以改进的决策树ID3算法为基础,根据学生成绩库中的信息以及其它库中有关学生基本数据的信息,建立一个决策树成绩评估模型,对学生进行相应的综合分析评估。通过对几种典型的决策树算法进行分析比较,本文提出一种改进的ID3算法。该算法的思想是首先将泰勒公式原理与ID3算法的属性选择标准一信息熵的求解相结合,对ID3算法信息熵的求解进行简化,改变了决策树算法中属性选择的标准,减小了算法的计算复杂度,提高了算法运行效率;然后再赋予每个属性简化后的信息熵一个权值N,N的取值取决于每个属性的取值个数,用以平衡每个属性对数据集的不确定程度,使得属性的选择更加合理化,避免选择的属性与实际不相符。最后在Eclipse平台上利用Java语言分别实现改进前后的ID3算法。实验结果表明,改进后的ID3算法提高了决策树的构建速度,减少了算法的计算运行时间,同时也克服了ID3算法往往偏向于选择取值较多的属性作为测试属性的缺陷。并且随着数据规模的增大,决策树的分类性能表现得越好。理论分析和实验结果表明,本文提出的改进算法改善了原始决策树ID3算法的性能,表现出了良好的分类效果。
论文目录
摘要ABSTRACT绪论一 问题的提出二 数据挖掘的应用现状三 本文结构第一章 数据挖掘分类技术1.1 数据挖掘基本知识1.1.1 数据挖掘概念1.1.2 数据挖掘的基本任务1.1.3 数据挖掘的基本技术1.1.4 数据挖掘的实施步骤1.2 数据挖掘分类技术基本知识1.2.1 分类基本概念1.2.2 分类基本算法1.2.3 分类准确度评估方法本章小结第二章 决策树分类算法2.1 决策树方法介绍2.1.1 决策树描述2.1.2 决策树生成过程2.1.3 决策树分类算法的生成指标2.2 几种常见的决策树分类算法2.2.1 ID3 算法简介2.2.2 C4.5 算法简介2.2.3 CART 算法简介2.2.4 SLIQ 算法简介2.2.5 SPRINT 算法简介2.2.6 PUBLIC 算法简介2.2.7 算法比较2.3 基于信息论的ID3 算法2.3.1 信息论在ID3 算法中的应用2.3.2 ID3 算法原理2.3.3 ID3 算法描述2.3.4 ID3 算法优缺点本章小结第三章 改进的决策树ID3 算法3.1 ID3 算法的缺点3.2 改进算法的理论基础3.2.1 理论基础3.2.2 克服选择属性的偏向3.2.3 属性选择标准的改进3.3 改进的算法3.3.1 算法步骤3.3.2 算法数据结构3.3.3 算法流程图3.3.4 算法实现本章小结第四章 改进的ID3 算法在学生成绩中的应用4.1 解决方案4.2 数据预处理4.2.1 数据采集4.2.2 数据清洗4.2.3 数据消减4.3 采用改进的ID3 算法进行数据挖掘4.3.1 类别属性信息熵的计算4.3.2 非类别属性信息熵的计算4.3.3 信息增益的计算4.3.4 递归创建决策树4.3.5 生成决策规则4.4 实验结果和比较4.4.1 时间复杂度分析4.4.2 构造决策树选择属性分析4.4.3 分类规则分析4.4.4 分类性能分析本章小结第五章 实例研究—学生成绩分析评估系统5.1 开发环境和相关技术5.1.1 开发环境5.1.2 体系构架5.1.3 相关技术5.2 系统功能概要设计5.2.1 需求分析5.2.2 功能需求5.2.3 系统流程5.3 系统功能模块设计5.3.1 数据预处理模块5.3.2 决策树生成模块5.3.3 决策树剪枝模块5.3.4 结果评价模块5.3.5 系统预测功能模块本章小结结论参考文献攻读硕士学位期间发表的学术论文致谢
相关论文文献
标签:决策树论文; 信息增益论文; 信息熵论文;