ID3算法的优化研究及其在构件库中的应用

论文摘要

随着信息技术的迅速发展以及人们获取数据手段的多样化,各行各业不断积累了大量数据,面对浩瀚的数据海洋,如何更好地利用这些数据资源,找出大量数据背后隐藏的信息和知识,已成为商业领域广泛关注的问题。因此,在人们的实际需求的推动下,数据挖掘技术应运而生,并得以在社会生活的各个领域蓬勃发展。在诸多的数据挖掘技术和方法中,用于数据分类的决策树方法是数据挖掘研究领域的一项重要课题。ID3 (Interactive Dicremiser versions 3)算法是决策树方法中最为常用的方法之一,它以其自身的多种优势,在机器学习领域得到广泛应用。然而,数据挖掘技术发展至今,在ID3算法的实际应用中,也发现ID3算法存在很多不足。因此,本文重点深入研究决策树方法中的ID3算法,分析ID3及其改进算法的优缺点,给出关于“简化ID3算法的启发式函数”和“解决ID3算法的多值偏向问题”两个方面的合理优化方案,以完善ID3算法。首先,本文通过近似值的方法,对ID3算法的属性选取标准进行简化,消除其中复杂的对数运算,最终得到适用于多类的、具有通用性和一般性的启发式函数简化形式。ID3简化算法选择信息增益最小的属性作为测试属性,在计算信息增益时,避免了对数运算,只包含计算机较易处理的基本运算符号,所以,在一定程度上减少了选取最优属性的计算量,提高了算法的执行效率；其次,本文引入平衡函数的概念从根本上克服ID3算法的多值偏向问题。其核心思想是：通过引入基于属性取值个数的单调平衡函数,平衡属性取值个数与信息增益之间的关系,进而得到新的最优属性选取标准。通过实例分析和算法比较,改进后的ID3算法选取的测试属性更为合理,进而从形成的决策树中提取的规则更为符合人们的实际需求。最后,本文通过一个实例实现了ID3优化算法在构件库中应用。根据算法在构件库中的应用流程,将构件基本信息表和用户反馈信息表整合而成的新数据集作为ID3优化算法的挖掘样本集合,最终形成决策树,并从中提取出构件复用规则。利用从大量构件背后挖掘出的知识规则可以辅助构件复用者更好地理解和选取构件,节约了用户决策时间。

论文目录

摘要

Abstract

第一章绪论

1.1 课题研究背景

1.2 国内外研究现状及进展

1.2.1 国外决策树方法的发展过程

1.2.2 国内决策树方法研究现状

1.3 课题研究内容及意义

1.4 论文组织结构

第二章数据挖掘理论知识

2.1 数据挖掘的定义

2.2 数据挖掘研究现状

2.3 数据挖掘的功能

2.4 数据挖掘的对象

2.5 数据挖掘的步骤

2.6 本章小结

第三章数据挖掘技术中的决策树方法

3.1 决策树方法的理论基础

3.2 决策树方法的相关概念

3.2.1 属性

3.2.2 属性集合与样本集合

3.2.3 决策树的基本概念

3.3 决策树方法的操作流程

3.4 本章小结

第四章决策树ID3算法的研究与分析

4.1 ID3算法的基本思想

4.2 ID3算法描述

4.3 ID3算法的实例分析

4.4 ID3算法的优缺点

4.5 本章小结

第五章 ID3算法的优化研究与实例分析

5.1 ID3算法的优化方案

5.2 ID3简化算法

5.2.1 简化算法理论基础

5.2.2 ID3简化算法

5.2.3 实例分析与算法比较

5.3 ID3改进算法

5.3.1 ID3算法的多值偏向分析

5.3.2 ID3改进算法

5.3.3 实例分析及算法比较

5.4 本章小结

第六章 ID3优化算法在构件库中的应用

6.1 算法应用流程

6.2 ID3优化算法的应用

6.2.1 构件样本集合的准备

6.2.2 数据挖掘算法的执行

6.2.3 提取复用规则

6.2.4 预测未知构件

6.3 本章小结

第七章总结与展望

7.1 论文工作总结

7.2 后续工作展望

致谢

参考文献

学术论文和科研成果目录

ID3算法的优化研究及其在构件库中的应用

论文摘要

论文目录

相关论文文献

猜你喜欢