决策树算法在高校研究生就业信息库中的应用研究

决策树算法在高校研究生就业信息库中的应用研究

论文摘要

数据挖掘是信息技术迅猛发展和人们获取数据手段多样化的结果,是从大量数据中提取隐含在其中的而又潜在有用的信息和知识的过程。数据挖掘的任务主要有关联分析、聚类分析、分类、预测、时序模式和偏差分析等。在挖掘过程中,数据分类是数据挖掘研究的一个重要的内容。目前用于数据分类的方法有很多,如决策树、神经网络、k-最临近方法、粗糙集、统计模型等。其中决策树算法是分类发现算法中最常见的一种方法,以其计算速度较快、容易被人理解、容易转换成分类规则等优点广泛应用于医疗诊断、气象报告、信贷审核、商业预测、案件侦破等领域。现存的决策树算法也存在很多不足之处,如属性选择的多值偏向、属性空缺值的处理、属性连续值的处理等。因此,怎样进一步提高决策树的性能,提高其分类精度,使之更加适合于数据挖掘的应用要求具有重要的理论研究意义与现实意义。本文针对上述决策树的不足之处进行深入的研究,探索决策树分类算法的优化算法以及如何利用决策树方法对研究生数据仓库进行分类挖掘。本文主要研究工作如下:第一,阐述了数据挖掘和分类技术的理论基础以及决策树的基本知识,并重点对几种常见的决策树算法进行了分析和比较,如经典决策树算法—ID3算法、能够克服ID3算法属性取值偏向问题的C4.5算法、利用GINI系数作为属性选择标准的CART算法、有着良好伸缩和并行性的SLIQ算法。第二,详细分析了决策树算法中存在的属性值空缺、属性多值偏向、连续值属性的处理、属性约减、属性选择标准等问题,并提出了具体的优化方法。第三,根据高校研究生信息库的特点,对异构数据源进行抽取、转换、装载,构建出用于分类挖掘的研究生就业数据仓库。第四,对ID3算法做了改进,提出了一种新的基于用户兴趣度和简化信息熵的决策树算法,经过比较,新算法在总体性能上优于传统的ID3算法。将改进算法应用于高校研究生就业信息库中,为各高校就业指导中心提供决策支持,有效地发挥出了新算法的实际应用价值。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 选题背景和意义
  • 1.2 国内外研究现状
  • 1.2.1 国外研究现状
  • 1.2.2 国内研究现状
  • 1.3 本文的研究内容及研究方法
  • 1.3.1 本文的研究内容
  • 1.3.2 本文的研究方法
  • 第二章 数据挖掘及决策树分类
  • 2.1 数据挖掘技术
  • 2.1.1 数据挖掘的过程
  • 2.1.2 数据挖掘的主要任务
  • 2.1.3 分类发现
  • 2.3 决策树分类
  • 2.3.1 决策树的生成
  • 2.3.2 决策树的剪枝
  • 2.4 几种常见的决策树算法
  • 2.4.1 ID3算法
  • 2.4.2 C4.5算法
  • 2.4.3 CART算法
  • 2.4.4 SLIQ算法
  • 2.5 本章小结
  • 第三章 决策树算法的优化研究
  • 3.1 属性值空缺的优化
  • 3.2 连续值属性的离散化
  • 3.3 基于粗糙集理论的属性约减算法
  • 3.4 属性选择标准的优化——简化熵
  • 3.4.1 优化的理论基础
  • 3.4.2 属性选择标准优化
  • 3.5 克服属性选择的多值偏向优化
  • 3.5.1 基于修正函数的算法
  • 3.5.2 加权简化熵算法
  • 3.5.3 基于用户兴趣度的简化熵算法
  • 3.6 实例比较验证
  • 3.7 本章小结
  • 第四章 研究生数据仓库的构建
  • 4.1 研究生就业数据仓库的构建过程
  • 4.1.1 就业分析主题
  • 4.1.2 数据源分析
  • 4.1.3 数据预处理
  • 4.1.4 数据建模
  • 4.1.5 就业分析的星型模式设计
  • 4.2 数据仓库与决策树算法的集成
  • 4.3 本章小结
  • 第五章 新算法在研究生数据仓库中的应用
  • 5.1 改进决策树算法的设计与实现
  • 5.2 决策树算法在数据仓库中的流程设计
  • 5.3 决策树算法的数据源
  • 5.4 开发运行环境
  • 5.5 用户界面设计
  • 5.6 功能函数实现及系统执行界面
  • 5.6.1 功能函数实现
  • 5.6.2 系统执行界面
  • 5.7 分类规则提取
  • 5.8 本章小结
  • 第六章 总结与展望
  • 致谢
  • 参考文献
  • 攻读硕士学位期间发表的论文
  • 相关论文文献

    • [1].决策树算法在塑料分类中的应用[J]. 塑料科技 2020(06)
    • [2].采用信息散布指数的改进决策树算法[J]. 数学的实践与认识 2020(14)
    • [3].面向信用评级的有决策树算法研究[J]. 齐齐哈尔大学学报(自然科学版) 2020(04)
    • [4].基于决策树算法的心脏病发病预警模型研究[J]. 电脑知识与技术 2020(19)
    • [5].决策树算法的研究综述[J]. 现代营销(下旬刊) 2017(01)
    • [6].数据挖掘中决策树算法的应用研究[J]. 电脑编程技巧与维护 2017(14)
    • [7].面向大数据分析的决策树算法[J]. 信息系统工程 2017(07)
    • [8].基于决策树算法的爬虫识别技术[J]. 软件 2017(07)
    • [9].面向大数据分析的决策树算法[J]. 计算机科学 2016(S1)
    • [10].一种面向大数据分析的快速并行决策树算法[J]. 云南大学学报(自然科学版) 2020(02)
    • [11].决策树算法在健康监测设备自动连接中的应用[J]. 自动化与仪表 2020(06)
    • [12].决策树算法在人才招聘简历筛选中的应用[J]. 企业改革与管理 2020(17)
    • [13].基于分布式运算的决策树算法的研究与实现[J]. 南通职业大学学报 2017(01)
    • [14].数据挖掘中决策树算法的研究[J]. 世界科技研究与发展 2009(04)
    • [15].一种改进的决策树算法研究[J]. 电脑知识与技术 2015(11)
    • [16].决策树算法综述[J]. 软件导刊 2015(11)
    • [17].一种新的基于粗糙集的概念模糊化决策树算法[J]. 新课程学习(中) 2014(09)
    • [18].决策树算法及其改进[J]. 科技创新导报 2014(12)
    • [19].逆向快速决策树算法概要[J]. 计算机应用研究 2011(12)
    • [20].基于决策树算法的疾病诊断分析[J]. 中国卫生信息管理杂志 2011(05)
    • [21].数据挖掘中的决策树算法比较研究[J]. 中国科技信息 2010(02)
    • [22].决策树算法在物流仓储中的研究与应用[J]. 微计算机信息 2010(30)
    • [23].决策树算法分析及其在实际应用中的改进[J]. 铜陵学院学报 2010(06)
    • [24].智能模糊决策树算法在英语机器翻译中的应用[J]. 计算机测量与控制 2020(10)
    • [25].决策树算法的比较与应用研究[J]. 华北电力技术 2017(06)
    • [26].决策树算法研究[J]. 课程教育研究 2018(48)
    • [27].改进决策树算法的应用研究[J]. 电子科技 2010(09)
    • [28].改进的多关系决策树算法[J]. 计算机应用研究 2009(12)
    • [29].浅谈数据挖掘中的决策树算法[J]. 福建电脑 2008(11)
    • [30].基于决策树算法的水位观测干扰识别模型[J]. 国际地震动态 2019(11)

    标签:;  ;  ;  ;  ;  

    决策树算法在高校研究生就业信息库中的应用研究
    下载Doc文档

    猜你喜欢