论文摘要
文本分类是指按照预先定义的主题类别,为文本集合中的每个文本确定一个类别。随着文本信息数量的快速增长,特别是互联网上海量文本信息的产生,自动文本分类技术已经成为组织和处理海量文本数据的关键技术,通过自动文本分类技术把文本进行归类,可以帮助人们更好地寻找所需要的信息和知识。本文针对海量文本信息分类处理的准确率需要提高的问题,研究了把“传统的文本特征项提取的贝叶斯网络文本分类”转换为“对文本的特征关联分析获取关联特征,再应用贝叶斯网络文本分类器进行分类”的方法应用,以达到提高大量文本信息分类的分类正确率。论文通过文本的预处理、文本的表示、特征的选取等,应用Apriori算法挖掘关联特征项,对多个同时在一个文本中频繁出现的单词集合,定义了“关联特征”的概念,在合适的支持度与置信度支持下,获取具有一定代表性质的关联特征,通过用原始的单个单词特征项结合关联特征项作为属性变量,建立了朴素贝叶斯网络文本分类器。论文借助建立的基于关联特征项的朴素贝叶斯网络文本分类器,在20_Newsgroups文本集中选了3个类别的数据做了分类器的性能测试实验,并比较了一般文本特征提取的文本分类过程,研究结果表明,把关联特征项应用到朴素贝叶斯网络文本分类中,使多特征项之间的关联信息也作为分类信息,有效地利用了特征项之间关联所包含的文本类别信息,从而了提高文本分类器的性能。
论文目录
摘要ABSTRACT第1章 绪论1.1 研究的背景和意义1.2 文本分类技术的国内外研究现状1.3 文本分类技术的应用1.4 论文的组织结构第2章 文本分类理论与方法2.1 文本分类概述2.2 文本的预处理2.2.1 分词2.2.2 去除停用词2.2.3 词干化2.3 文本特征表示2.3.1 布尔权重2.3.2 TF 词频权重2.3.3 TF-IDF 权重2.4 常用的文本分类技术2.4.1 Rocchio 文本分类2.4.2 K 最近邻文本分类2.4.3 朴素贝叶斯网络文本分类2.5 文本分类结果评价2.5.1 查准率2.5.2 查全率2.5.3 F1 测试值2.6 本章小结第3章 朴素贝叶斯网络文本分类器3.1 贝叶斯网络分类概述3.2 贝叶斯定理3.2.1 先验概率和条件概率3.2.2 贝叶斯公式3.3 贝叶斯网络分类器3.4 朴素贝叶斯网络分类器3.5 本章小结第4章 关联特征应用于朴素贝叶斯网络文本分类4.1 关联特征应用于文本分类的研究意义4.2 挖掘关联规则的算法4.2.1 关联规则挖掘中的主要概念4.2.2 关联规则挖掘的算法4.3 挖掘文本的关联特征项4.4 文本分类特征项的筛选4.5 基于关联特征的文本分类4.6 本章小结第5章 文本分类结果测试与分析5.1 样本数据集5.2 实验过程5.2.1 文本预处理5.2.2 特征筛选5.2.3 关联特征的提取5.2.4 多余特征项剔除5.3 基于关联特征的朴素贝叶斯网络建立与分类5.3.1 分类算法的实现5.3.2 模型的参数学习5.3.3 实验结果分析5.4 本章小结结论参考文献附录1附录2攻读硕士学位期间取得的研究成果致谢附件
相关论文文献
标签:文本分类论文; 特征选择论文; 关联特征论文; 贝叶斯网络论文;