论文摘要
互联网的飞速发展导致了网络中的文本数据也随之迅速增长,因此如何高效处理这些文本信息成为一个重要的研究课题。而文本自动分类技术作为文本信息处理中的一个重要环节引起了人们的广泛关注。文本分类能够处理大量的文本,可以在较大程度上解决信息紊乱的现状,方便用户准确地定位所需要的信息。文本分类作为信息检索、信息过滤、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景。文本分类的首要问题是文本数据的数学表示模型。目前多数文本分类方法都是以向量空间模型为基础的。这种文本表示方法比较简单,但却引发了向量空间的高维性和稀疏性问题,这使得文本分类具有相当高的时间复杂度;同时向量空间模型忽略了特征项之间的语义相关性,这就导致大量语义信息的丢失,使得到的特征向量不能很好地代表文本内容;最后,基于向量空间模型的文本分类方法都没有很好地解决文本数据所特有的两个自然语言问题:同义词和相关词。所有这些问题都极大地干扰了文本分类的效率和准确性,使文本分类的性能下降。为了解决上述问题,本文将语义词典引入到文本分类领域。使用《哈工大信息检索研究室同义词词林扩展版》(简称《同义词词林》)将向量空间模型中基于词的特征项进行语义分析,使用同义词或相关词集合概念代替单个词条,将传统向量空间模型中的特征项由词映射为代表深层次语义的概念,从而将原始的基于词的向量空间模型映射为基于语义概念的向量空间模型。对基于上述语义概念向量空间模型的中文文本分类进行了深入研究,然后运用软件工程的一般理论,设计并实现了基于语义概念向量空间模型的中文文本分类原型系统。最后通过实验对训练过程中产生的基于词的向量空间模型和经过《同义词词林》进行语义映射之后产生的语义概念向量空间模型进行了维度比较;并且对语义映射前后产生的特征项集合进行了比较研究。实验证明,基于语义概念的向量空间模型能够有效地解决向量空间的高维稀疏性和同义词、相关词问题。
论文目录
相关论文文献
标签:中文文本分类论文; 向量空间模型论文; 语义概念向量空间模型论文; 同义词词林论文;