论文摘要
在高等学校的信息化建设中积累了大量的数据,挖掘隐藏在这些数据背后的知识,为人们的决策提供帮助,对于促进高等学校的建设,具有一定的现实意义。本文对数据挖掘中的决策树算法ID3算法进行了研究,并结合教育管理信息中数据的特点,对ID3算法进行了改进;并设计了教育信息挖掘模型DT-IDM。决策树学习算法在数据挖掘技术中具有很重要的作用。但决策树的ID3算法有以下三方面不足;(1)在决策树的每个节点上只选择单个属性,属性间的相关性强调不够,导致决策树中子树的重复。(2)在生成决策树过程中,由于递归地划分,一些数据子集可能变得太小,进一步划分就失去了统计意义。(3)倾向于有许多值的属性。针对ID3算法存在的不足,结合教育管理信息中数据的特点,对ID3算法进行了改进,提出了IDT-DM算法,主要做了以下改进;(1)引入相关度概念,将与分类属性相关度小于事先规定的阈值的属性剔除,降低了决策树的复杂度,使生成的知识、规则更容易理解。(2)在生成决策树过程中,算法根据设定的分类阈值进行判断,决定是否进一步划分,如果划分停止则创建一个叶节点。(3)引进了复合度量基准取代信息增益作为决策属性选择的标准。在一定程度上解决了决策树采用信息增益基准所造成的偏向有许多值的属性的缺陷。根据改进的IDT-DM算法,设计了面向教育管理决策的数据挖掘模型;在挖掘模型DT-IDM的实现过程中,运用VISUAL C++开发语言,采用SQL Server2000数据库创建了教育信息挖掘库。根据教育信息库中的数据,对学生课程成绩信息,学生基本信息等信息进行挖掘。在知识的表达和解释方面,使用易理解的表格、图形等,并进行了解释和评估。