基于向量空间模型的文本分类算法研究

论文摘要

随着网络信息的迅速发展,如何在海量的文本信息资源中快捷、准确的获取有用信息已成为信息处理技术的关键。文本分类技术作为处理和组织大规模数据的核心技术,可以在很大程度上解决信息分类混乱问题,并更加准确高效地实现信息定位和信息分流。目前,文本分类技术在信息检索、网页去重、自动问答等领域都起到了不可或缺的作用,并迅速成为相关领域的研究热点。以向量空间模型(VSM)为代表的基于数据统计的文本相似性算法因其具有实现简单、计算高效等特点而得到了广泛的应用,但随着网络技术的迅速发展和文本信息资源数量的急速增加,文本种类、文本复杂度也较之前有了很大的改变,进而导致传统的VSM算法在文本分类过程中的缺陷也日渐凸显。本文首先结合知网语义知识词典(HowNet)和隐形语义索引(LSI)在文本分类中的应用,深入比对并分析了传统VSM算法在分类过程中的缺陷。由于VSM算法是基于词形建立向量空间模型,没有考察特征词条间的语义信息,忽略了相同语义下词形的多样性、不确定性,从而导致文本分类精度不够。另外,针对文本库中海量词条建立向量空间也使得该向量空间维度过大,进而导致文本分类效率较低。为此,本论文借助HowNet (知网)中的语义层次树,依据语义层次树中的上下位关系对VSM中的特征向量进行语义扩展,将每一个特征词条扩展为一系列与之具有语义相关性的特征词条集合,并赋予相应权重。另外,根据HowNet中的词汇相似度公式为具有同义关系的词条建立同义词集合,并引入“标志词”(flag word)的概念,以“标志词”来取代集合内对应词条。语义扩展和同义词集合建立两个阶段实现了VSM特征词条的语义重构,对重构后的特征向量进行VSM相似度计算具有更高的计算精度。在实验过程中,针对传统VSM在文本分类过程中的缺陷,本文为分属于不同领域的大量文本数据建立了相关数据集,并通过文本分类实验对比得出改进算法与传统VSM在召回率、精确率等索引性能上的差异。实验结果表明,较传统VSM算法,改进算法在文本分类精度及文本分类效率上都有一定程度的提高。最后本文结合改进算法在特征词条的消歧、去重等不足,对论文进行了总结与展望,并指出了基于语义特征的VSM在文本分类领域尚需研究和改进的问题。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 研究目的和意义

1.2 国内外研究现状

1.3 论文结构安排

第二章 VSM文本分类的数学模型

2.1 文本数据预处理

2.1.1 文本分词

2.1.2 特征提取

2.1.3 消除停用词

2.2 VSM模型建立

2.2.1 向量空间模型简介

2.2.2 词条权重的计算

2.2.3 相似度的测量

2.3 文本分类的方法

2.3.1 分割式分类算法（Partitioning Methods）

2.3.2 阶层式分类算法（Hierarchical Methods）

2.3.3 基于模型的分类算法（Model-Based Methods）

2.4 本章小结

第三章语义本体库在文本分类中的应用

3.1 概念词典的建立

3.1.1 HowNet简介

3.1.2 义原层次结构

3.2 词语义项的表征方法及其可计算性

3.2.1 基于义原的表征方法及其可计算性

3.2.2 基于概念依存关系的表征方法及其可计算性

3.2.3 二维结构表征方法及其可计算性

3.3 语义相似性计算

3.3.1 词语相似度

3.3.2 语句相似度

3.3.3 文本相似度

3.4 本章小结

第四章基于语义扩展的VSM分类算法

4.1 建立原始向量空间模型

4.1.1 文本预处理

4.1.2 TF-IDF权重计算

4.1.3 原始向量空间模型建立

4.2 基于概念进行向量空间降维

4.2.1 引入概念降维必要性分析

4.2.2 概念同义词辨识

4.2.3 基于同义词集合语义降维

4.3 VSM向量空间语义扩展

4.3.1 语义层次树分析

4.3.2 VSM语义建立扩展向量

4.3.3 扩展文本相似度算法

4.3.4 文本举例

4.4 文本分类

4.4.1 分类策略

4.4.2 分类指标

4.5 本章小结

第五章实验过程与结果分析

5.1 实验环境

5.1.1 实验平台

5.1.2 实验语料

5.1.3 分词系统

5.2 评估指标

5.3 实验过程

5.3.1 训练过程

5.3.2 分类过程

5.4 实验结果分析

5.4.1 小型文本分类

5.4.2 改进的VSM算法与传统算法分类精度对比

5.4.3 改进的VSM算法对向量空间维数的影响

5.5 本章小结

结论

致谢

参考文献

附录

详细摘要

基于向量空间模型的文本分类算法研究

论文摘要

论文目录

相关论文文献

猜你喜欢