基于多属性关联改进文本分类算法

基于多属性关联改进文本分类算法

论文摘要

目前大量有用信息以文本形式存在,因此如何快速对大规模的文本分类成为亟待解决的问题。为应对这一问题,文本自动分类应用而生。文本自动分类结合了统计方法和机器学习理论,将文本划分到预先定义的类别,能较好地解决大量文档信息归类的问题并得到广泛应用。目前文本分类的研究主要集中在文本表示和分类器算法两个方面。首先文本经预处理得到的文本表示空间具有高维性和稀疏性,导致分类性能下降及效率较低。文本分类器有朴素贝叶斯分类器、k-近邻、支持向量机、神经网络等。本文绪论简要介绍文本分类的产生原因、基础理论以及研究进展;然后介绍主要文本表示模型的基础理论,并介绍文本分类算法中主流学习算法的基本思想和理论依据;介绍文本分类算法的评估标准和常用基准数据集。其次机器学习方法未充分考虑文本的语义信息,忽略了各条件属性之间以及条件属性与决策属性之间的关联,本文紧紧围绕属性间关联这一问题,在分析文本分类研究内容和当前研究存在问题的基础上,将重点研究三个问题:一是如何挖掘属性间关系以提高文本分类准确率;二是如何改进文本分类算法提高分类器性能;三是根据以上研究,通过大量对比实验验证了本文提出算法的有效性。本文开展并完成了以下工作:1.为提高朴素贝叶斯分类器的分类精度和泛化能力,提出了基于属性相关性的加权贝叶斯集成方法(WENB)。根据每个条件属性与决策属性的相关度对其赋以相应的权值,然后用AdaBoost训练属性加权后的Navie Bayes (NB)。该分类方法在16个UCI标准数据集上进行了测试,与NB、贝叶斯网和由AdaBoost训练出的NB进行比较。进一步将该方法应用到文本数据集中,将其与NB在4个文本数据集上进行比较。实验结果表明,该分类器具有更高的分类精度与泛化能力。2.NB算法是一种概率统计方法,它基于属性独立性假设,忽略了属性间关联度,致使分类精度降低。为充分利用属性间关系以提高分类性能.提出了基于属性对的朴素贝叶斯方法(NBA)。该算法在计算属性先验概率时,将相关属性同时计算,考虑属性间关联信息对分类的贡献,在一定程度上避免了属性独立性假设的弊端。10个UCI基准数据集和4个文本数据集上的实验结果表明,该算法明显优于NB算法。3.C4.5算法是一种自顶向下的一步贪婪搜索算法,该算法只能找到分类问题的局部最优解。为提高找到全局最优解的可能性,本文提出了向前两步的决策树构建算法。该算法在选择属性时,考虑同时选择两个属性带来的信息增益,而不是只考虑单一最优属性对于信息增益的贡献,从而在寻找问题全局最优方面比只考虑单一最优属性具有更大的可能性。10个UCI基准数据集和4个文本数据集上的实验结果表明,该算法明显优于C4.5算法。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 选题背景及研究意义
  • 1.2 文本分类的研究现状
  • 1.2.1 文本表示
  • 1.2.2 空间降维
  • 1.2.3 属性间关联
  • 1.3 研究中存在的问题
  • 1.4 本文的主要研究工作
  • 1.5 本文的内容安排
  • 第2章 文本分类算法基础理论
  • 2.1 文本分类算法
  • 2.1.1 决策树分类算法
  • 2.1.2 朴素贝叶斯分类算法
  • 2.1.3 k-近邻分类算法
  • 2.1.4 支持向量机
  • 2.1.5 人工神经网络算法
  • 2.2 文本数据集
  • 2.2.1 Reuters21578
  • NewsGroup'>2.2.2 20NewsGroup
  • 2.2.3 WebKB
  • 2.2.4 TDT
  • 2.2.5 OHSUMED
  • 2.3 分类器评估标准
  • 2.3.1 二分类器评价指标
  • 2.4 本章小结
  • 第3章 基于属性加权的朴素贝叶斯集成分类器
  • 3.1 问题描述
  • 3.2 集成学习
  • 3.3 加权贝叶斯集成分类器
  • 3.3.1 属性加权
  • 3.3.2 WEBNC算法实现
  • 3.3.3 实验及结果分析
  • 3.3.4 本章小结
  • 第4章 基于属性对的朴素贝叶斯分类器
  • 4.1 问题描述
  • 4.2 属性对的先验概率
  • 4.3 连续型数值离散化
  • 4.4 NBNA算法实现
  • 4.5 实验及结果分析
  • 4.6 本章小结
  • 第5章 决策树构建方法:向前两步优于一步
  • 5.1 C4.5算法思想
  • 5.2 向前两步决策树构建算法(TSFDT)
  • 5.2.1 属性对的信息增益率
  • 5.2.2 处理缺少属性值的训练样例
  • 5.2.3 避免过度拟合数据
  • 5.2.4 算法描述
  • 5.3 算法示例及复杂度分析
  • 5.4 实验结果分析
  • 5.4.1 UCI数据集上实验数据与分析
  • 5.4.2 文本数据集上的实验数据与分析
  • 5.5 本章小结
  • 第6章 总结与展望
  • 6.1 本文主要贡献与创新
  • 6.2 下一步工作
  • 参考文献
  • 攻读硕士学位期间发表的论文和参与的项目
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于多属性关联改进文本分类算法
    下载Doc文档

    猜你喜欢