基于决策树分类算法的Web文本分类研究

基于决策树分类算法的Web文本分类研究

论文摘要

数据挖掘的兴起对计算机算法的理论起到了推波助澜的作用,特别是进入新世纪以来,数据挖掘技术在数据库和数据仓库中发挥的作用,以及在搜索引擎方面的巨大成功都使得它成为以后计算机研究的一个重要分支。决策树分类算法的发展也在一定程度上反映了这点。最早的决策树分类算法是CLS方法。继而先后出现了ID3算法、改进ID3算法的C4.5算法、CART算法、SLIQ算法和SPRINT算法等。这些算法理论的出现和改进不断丰富着决策树方法。文本分类是Web数据挖掘中一项非常重要的任务。文本分类过程有文本表示、特征提取、构造分类器、规则抽取这几个重要步骤,特征提取和分类器的构造计算量相对比较大,选取什么方法进行特征提取和用什么方法构造分类器对整个分类过程效率起到很大影响。本文首先对几种经典的决策树分类算法进行研究和分析,并比较算法间的差异。其次对C4.5算法进行改进,利用麦克劳林公式进行替换,并对信息增益率的公式进行化简,得到新的算法公式,此公式不但大大简化了原来复杂的计算公式,而且结果不会产生偏差。C4.5算法得以实施的前提是假设属性间是无关联的,相互独立,但从实际情况看来,这个假设不一定成立,于是引入属性相关性概念和用户兴趣度,分析这两者对算法的影响。C4.5算法的一个优点就是可以处理连续值属性,本文在原来基础上提出一种改进方法,使得处理连续值属性时占用的内存和计算量大大减少,提高了算法的计算效率。把改进的C4.5算法引进到Web文本分类中,使得决策树分类算法的应用得到更大的推广。分析了特征提取中χ~2统计量方法存在的缺点,它不能反映出分词对类别贡献的正负性。本文在原来基础上作出改进,使得分词对类别的贡献更加清晰,利用改进的决策树分类算法构造分类器,最后实现规则抽取。把算法简单的应用于某县开发区OA系统的信息采编中,实验数据表明,在一定程度上减轻了信息采编者的工作量。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题的研究背景
  • 1.2 国内外研究现状
  • 1.3 本文的主要工作
  • 1.4 本文的组织结构
  • 第2章 数据挖掘技术
  • 2.1 数据挖掘概念
  • 2.2 数据挖掘的步骤
  • 2.3 数据挖掘常用算法与技术
  • 2.4 Web 数据挖掘
  • 2.4.1 概念
  • 2.4.2 Web 数据挖掘分类
  • 2.5 Web 文本挖掘介绍
  • 2.5.1 Web 文本挖掘概念
  • 2.5.2 Web 文本挖掘任务
  • 2.6 本章小结
  • 第3章 决策树分类算法研究
  • 3.1 决策树算法原理
  • 3.1.1 算法的发展
  • 3.1.2 算法实现过程归纳
  • 3.2 ID3 算法
  • 3.2.1 信息论基础
  • 3.2.2 ID3 算法实现过程
  • 3.2.3 ID3 算法优缺点
  • 3.3 C4.5 算法
  • 3.3.1 C4.5 算法原理
  • 3.3.2 C4.5 算法对连续值属性的处理
  • 3.3.3 C4.5 算法的剪枝
  • 3.4 其他决策树分类算法
  • 3.4.1 CART 算法
  • 3.4.2 SLIQ 算法
  • 3.4.3 SPRINT 算法
  • 3.5 算法小结
  • 3.6 本章小结
  • 第4章 决策树算法的改进
  • 4.1 C4.5 算法简化改进
  • 4.2 侧重属性权值和属性相关性的研究
  • 4.3 对连续值属性的处理改进
  • 4.4 本章小结
  • 第5章 决策树算法在Web 文本分类中的应用
  • 5.1 文本分类概述
  • 5.1.1 文本分类原理
  • 5.1.2 文本分类方法
  • 5.1.3 文本分类效果评价
  • 5.2 基于决策树算法的文本分类
  • 5.2.1 文本表示
  • 5.2.2 特征提取
  • 5.2.3 基于决策树的分类器
  • 5.2.4 规则抽取
  • 5.3 实验及结果分析
  • 5.4 在OA 系统中的初步应用
  • 5.5 本章小结
  • 总结与展望
  • 总结
  • 下一步的工作
  • 参考文献
  • 攻读学位期间发表的学术论文目录
  • 致谢
  • 详细摘要
  • 相关论文文献

    • [1].决策树分类算法及其应用[J]. 科学技术创新 2017(25)
    • [2].基于决策树分类算法的遥感影像土地利用分类[J]. 阴山学刊(自然科学版) 2018(02)
    • [3].不确定数据的决策树分类算法[J]. 计算机应用 2009(11)
    • [4].一种有效的多关系决策树分类算法[J]. 内蒙古农业大学学报(自然科学版) 2020(02)
    • [5].决策树分类算法研究[J]. 信息与电脑(理论版) 2020(14)
    • [6].数据挖掘中决策树分类算法的研究与改进[J]. 软件导刊 2009(02)
    • [7].决策树分类算法在输变电设备状态监测装置可用性判断中的研究与应用[J]. 数字技术与应用 2016(12)
    • [8].决策树分类算法在教学评估中的应用[J]. 中国高等教育评估 2013(02)
    • [9].基于红黑树的连续属性数据流快速决策树分类算法[J]. 南京邮电大学学报(自然科学版) 2017(02)
    • [10].基于决策树分类算法的入侵检测研究[J]. 电子设计工程 2013(22)
    • [11].决策树几种分类算法的分析比较[J]. 电脑知识与技术 2018(20)
    • [12].基于不确定数据决策树分类算法的软件外包评价模型[J]. 天津职业技术师范大学学报 2011(03)
    • [13].基于修正系数的决策树分类算法[J]. 计算机工程与设计 2008(24)
    • [14].属性约简的决策树分类算法对未成年人犯罪行为的分析[J]. 中国人民公安大学学报(自然科学版) 2011(04)
    • [15].ID3决策树分类算法在学生信息中的应用[J]. 硅谷 2011(11)
    • [16].一种改进的基于粗糙集理论的决策树分类算法[J]. 云南民族大学学报(自然科学版) 2012(06)
    • [17].决策树分类算法——ID3算法及其讨论[J]. 软件导刊 2010(10)
    • [18].决策树分类算法-ID3的改进[J]. 黑龙江科技信息 2009(07)
    • [19].基于最小Gini指标的决策树分类算法设计与研究[J]. 软件导刊 2009(05)
    • [20].基于决策树分类算法异构数据的索引优化[J]. 电子科技 2018(03)
    • [21].数据挖掘中决策树分类算法的研究[J]. 东华理工大学学报(自然科学版) 2010(02)
    • [22].基于数据挖掘技术的高校精准化资助路径探析[J]. 国际公关 2020(08)
    • [23].基于bagging思想的决策树分类算法研究[J]. 北京服装学院学报(自然科学版) 2020(03)
    • [24].基于MR的并行决策树分类算法的设计与实现[J]. 广西师范大学学报(自然科学版) 2011(01)
    • [25].决策树分类算法C4.5中连续属性过程处理的改进[J]. 计算机与现代化 2010(08)
    • [26].一种基于改进SLIQ决策树分类算法的应用研究[J]. 苏州大学学报(工科版) 2010(01)
    • [27].基于McDiarmid不等式的决策树分类算法[J]. 山西大学学报(自然科学版) 2019(04)
    • [28].数据挖掘中改进的C4.5决策树分类算法[J]. 吉林大学学报(理学版) 2017(05)
    • [29].基于关联矩阵的决策树分类算法[J]. 长春大学学报 2013(04)
    • [30].基于模糊分裂的概念自适应增量决策树分类算法[J]. 计算机工程与设计 2011(04)

    标签:;  ;  ;  ;  ;  

    基于决策树分类算法的Web文本分类研究
    下载Doc文档

    猜你喜欢