基于类核心词的文本分类技术研究

论文摘要

随着Internet的迅速发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学技术领域面临的一大问题。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。本文对文本分类及其相关技术进行了研究,介绍了文本分类的总体结构和各个组成部分,重点研究了特征降维方法和文本分类算法。本文主要做了以下两方面的工作:⑴由于文本集中都存在着样本不均衡问题,使得某些大类中含有的文本数多,而有些小类中含有的文本数少,这样在特征选择时就容易选取大类中的特征。为了消除不同类别之间语料规模对文本分类的影响,针对信息增益中特征出现与否对信息熵的不平衡问题给予了改进,本文提出了一种基于相对文档频的平衡信息增益(Relative Document Frequency Balance Information Gain :RDFBIG)降维方法。实验结果表明,RDFBIG在某些分类界限不太明确的类以及文档规模较大的类中取得了较好的分类效果,并使整体的分类性能有所提高。⑵现在一般用向量空间模型来表示文本,但向量空间模型的高维特征空间、稀疏文档向量以及高度的冗余性,使得基于向量空间模型分类算法的效率不太理想。本文提出了一种基于类核心词的文本分类算法(the Text Categorization Algorithm based on Class Kernel Word:CKW),它不用向量空间模型表示文本,只计算各个类别的类核心词以及它们在类中的权重。先用RDFBIG方法计算特征的分类信息量,再通过计算各个特征在类中相对文档频,利用两者来计算特征在类别中的权重。对于待分类的文本,计算文本中含有的类中核心词的比重,把文本归类到比重最高的类中。实验结果表明,此分类算法具有较好的分类效果,较高的分类效率。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 研究背景及意义

1.2 自动文本分类的典型应用

1.3 文本分类的研究状况

1.4 本文研究的主要内容

1.5 本文结构

第二章文本分类概述

2.1 文本分类定义

2.2 文本分类系统的组成

2.3 文本预处理

2.3.1 去除文档中的格式标记

2.3.2 过滤非法字符

2.3.3 去除停用词和稀有词

2.3.4 中文分词处理

2.4 文本表示

2.5 特征降维

2.6 文本分类模式

2.7 文本分类的评价标准

2.7.1 文本分类效果的影响因素

2.7.2 文本分类的评价指标

2.8 本章小结

第三章特征降维技术

3.1 特征选择

3.1.1 特征频度

3.1.2 文档频率

3.1.3 特征熵

3.1.4 互信息

3.1.5 信息增益

3.1.6 期望交叉熵

2统计量'>3.1.7 X²统计量

3.1.8 相关系数

3.1.9 文本证据权

3.1.10 几率比

3.2 特征抽取

3.2.1 主成分分析

3.2.2 潜在语义索引

3.2.3 非负矩阵分解

3.3 本章小结

第四章文本分类算法

4.1 Rocchio 分类算法

4.2 KNN 分类算法

4.3 朴素贝叶斯分类算法

4.4 支持向量机

4.5 本章小结

第五章基于相对文档频的平衡信息增益降维方法

5.1 信息增益降维方法分析

5.2 相对文档频平衡信息增益

5.2.1 相对文档频

5.2.2 平衡因子

5.3 实验及结果分析

5.3.1 实验数据

5.3.2 实验环境及步骤

5.3.3 实验结果及分析

5.4 本章小结

第六章基于类核心词的文本分类算法

6.1 类核心词

6.2 基于类核心词的文本分类

6.3 实验及结果分析

6.4 本章小结

第七章总结与展望

参考文献

致谢

附录A 文本分类实验平台使用说明

作者简介及发表的学术论文

基于类核心词的文本分类技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢