论文摘要
随着数据挖掘分类技术的广泛应用,决策树在数据挖掘技术中的作用越来越重要,并且取得了众多的研究成果。实际应用中由于存储数据量爆炸性的增长,使许多算法挖掘效率下降,而传统的决策树算法已经不能很好的从海量的数据中找出有用的信息,使得它的应用受到了一定的局限性。为了解决决策树算法应用的局限性问题,本文着重对决策树挖掘算法进行了研究,在现有算法的基础上对SPRINT算法进行改进,并运用改进的算法对影响本科生创新能力的主要因素进行挖掘。主要的研究工作集中体现在以下几个方面:(1)对经典决策树算法的理论和实现原理进行了研究;深入分析了SPRINT算法,针对该算法的不足进行了改进,并将改进算法与原有算法进行了测试;对Eclipse开发平台的结构和Weka平台的结构、功能、内核进行了分析。(2)在上述研究的理论方法的基础上,对SPRINT算法中关键的成员变量、方法以及数据结构进行设计,根据规则建立分类器,将SPRINT算法封装进Weka平台中,并通过实例将封装的SPRINT算法与Weka平台自带的J4.8算法(即C4.5算法)进行比较测试。(3)将封装的SPRINT算法应用到学生创新能力挖掘中,对分类的结果进行分析,总结出学生创新能力与教学方法的之间的关系,为教师指导学生提供决策支持。(4)最后对改进的SPRINT算法的理论思想和实验原理进行了详细的总结,同时对论文存在的问题做了说明,展望下一步的工作。