关联特征提取与贝叶斯网络的文本分类研究

关联特征提取与贝叶斯网络的文本分类研究

论文摘要

文本分类是指按照预先定义的主题类别,为文本集合中的每个文本确定一个类别。随着文本信息数量的快速增长,特别是互联网上海量文本信息的产生,自动文本分类技术已经成为组织和处理海量文本数据的关键技术,通过自动文本分类技术把文本进行归类,可以帮助人们更好地寻找所需要的信息和知识。本文针对海量文本信息分类处理的准确率需要提高的问题,研究了把“传统的文本特征项提取的贝叶斯网络文本分类”转换为“对文本的特征关联分析获取关联特征,再应用贝叶斯网络文本分类器进行分类”的方法应用,以达到提高大量文本信息分类的分类正确率。论文通过文本的预处理、文本的表示、特征的选取等,应用Apriori算法挖掘关联特征项,对多个同时在一个文本中频繁出现的单词集合,定义了“关联特征”的概念,在合适的支持度与置信度支持下,获取具有一定代表性质的关联特征,通过用原始的单个单词特征项结合关联特征项作为属性变量,建立了朴素贝叶斯网络文本分类器。论文借助建立的基于关联特征项的朴素贝叶斯网络文本分类器,在20_Newsgroups文本集中选了3个类别的数据做了分类器的性能测试实验,并比较了一般文本特征提取的文本分类过程,研究结果表明,把关联特征项应用到朴素贝叶斯网络文本分类中,使多特征项之间的关联信息也作为分类信息,有效地利用了特征项之间关联所包含的文本类别信息,从而了提高文本分类器的性能。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究的背景和意义
  • 1.2 文本分类技术的国内外研究现状
  • 1.3 文本分类技术的应用
  • 1.4 论文的组织结构
  • 第2章 文本分类理论与方法
  • 2.1 文本分类概述
  • 2.2 文本的预处理
  • 2.2.1 分词
  • 2.2.2 去除停用词
  • 2.2.3 词干化
  • 2.3 文本特征表示
  • 2.3.1 布尔权重
  • 2.3.2 TF 词频权重
  • 2.3.3 TF-IDF 权重
  • 2.4 常用的文本分类技术
  • 2.4.1 Rocchio 文本分类
  • 2.4.2 K 最近邻文本分类
  • 2.4.3 朴素贝叶斯网络文本分类
  • 2.5 文本分类结果评价
  • 2.5.1 查准率
  • 2.5.2 查全率
  • 2.5.3 F1 测试值
  • 2.6 本章小结
  • 第3章 朴素贝叶斯网络文本分类器
  • 3.1 贝叶斯网络分类概述
  • 3.2 贝叶斯定理
  • 3.2.1 先验概率和条件概率
  • 3.2.2 贝叶斯公式
  • 3.3 贝叶斯网络分类器
  • 3.4 朴素贝叶斯网络分类器
  • 3.5 本章小结
  • 第4章 关联特征应用于朴素贝叶斯网络文本分类
  • 4.1 关联特征应用于文本分类的研究意义
  • 4.2 挖掘关联规则的算法
  • 4.2.1 关联规则挖掘中的主要概念
  • 4.2.2 关联规则挖掘的算法
  • 4.3 挖掘文本的关联特征项
  • 4.4 文本分类特征项的筛选
  • 4.5 基于关联特征的文本分类
  • 4.6 本章小结
  • 第5章 文本分类结果测试与分析
  • 5.1 样本数据集
  • 5.2 实验过程
  • 5.2.1 文本预处理
  • 5.2.2 特征筛选
  • 5.2.3 关联特征的提取
  • 5.2.4 多余特征项剔除
  • 5.3 基于关联特征的朴素贝叶斯网络建立与分类
  • 5.3.1 分类算法的实现
  • 5.3.2 模型的参数学习
  • 5.3.3 实验结果分析
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 附录1
  • 附录2
  • 攻读硕士学位期间取得的研究成果
  • 致谢
  • 附件
  • 相关论文文献

    标签:;  ;  ;  ;  

    关联特征提取与贝叶斯网络的文本分类研究
    下载Doc文档

    猜你喜欢