论文摘要
随着Internet的迅速发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学技术领域面临的一大问题。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。本文对文本分类及其相关技术进行了研究,介绍了文本分类的总体结构和各个组成部分,重点研究了特征降维方法和文本分类算法。本文主要做了以下两方面的工作:⑴由于文本集中都存在着样本不均衡问题,使得某些大类中含有的文本数多,而有些小类中含有的文本数少,这样在特征选择时就容易选取大类中的特征。为了消除不同类别之间语料规模对文本分类的影响,针对信息增益中特征出现与否对信息熵的不平衡问题给予了改进,本文提出了一种基于相对文档频的平衡信息增益(Relative Document Frequency Balance Information Gain :RDFBIG)降维方法。实验结果表明,RDFBIG在某些分类界限不太明确的类以及文档规模较大的类中取得了较好的分类效果,并使整体的分类性能有所提高。⑵现在一般用向量空间模型来表示文本,但向量空间模型的高维特征空间、稀疏文档向量以及高度的冗余性,使得基于向量空间模型分类算法的效率不太理想。本文提出了一种基于类核心词的文本分类算法(the Text Categorization Algorithm based on Class Kernel Word:CKW),它不用向量空间模型表示文本,只计算各个类别的类核心词以及它们在类中的权重。先用RDFBIG方法计算特征的分类信息量,再通过计算各个特征在类中相对文档频,利用两者来计算特征在类别中的权重。对于待分类的文本,计算文本中含有的类中核心词的比重,把文本归类到比重最高的类中。实验结果表明,此分类算法具有较好的分类效果,较高的分类效率。