基于词语权重的中文文本分类算法的研究

论文摘要

随着互联网的迅速发展,特别是Internet的普及,Web已成为全球性的、巨大的、分布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但是随着Internet上信息量的爆炸式增加,信息搜索时,与特定用户要求不大相关的信息大量涌现,甚至掩盖了对用户真正有用的信息。因此如何在浩瀚的信息资源中快速、有效地找到自己所需要的信息以及有效地利用这些信息就成了当前研究的热点。文本分类在信息检索中起着非常重要的作用,它可以有效地组织和管理这些信息,从而提高信息搜索的效率。论文首先介绍了文本自动分类在国内外的研究现状;其次对文本自动分类所涉及的关键技术,包括文本分类的基本概念、文本表示模型、特征抽取、特征项权重方法以及关键的分类算法,分别进行了研究和探索;最后在特征项权重方面,我们分析了传统特征项权重方法的缺点,通过针对常用的特征权重计算方法TF-IDF的分析,提出了一种改进的权值计算方法。该权值计算方法将CHI统计量公式引进到特征权值计算中,按照特征对文本分类的辨别能力调整其在权重计算中的贡献。在特征赋权方面,提出了TF-IDF与X2统计量相结合的权值计算方法。实验证明改进的权重计算方法对分类精度有了很大的提高。论文最后设计和实现了基于词语权重的中文文本分类系统的总体框架,系统流程和功能模块;应用词语权重理论,提出了一种文本分类的新方法。最后设计并验证了基于词语权重的文本分类模型。实验结果表明基于词语权重的文本分类模型是一种比较稳定的算法,证明了算法的有效性。

论文目录

摘要

ABSTRACT

第一章绪论

§1-1 文本分类研究的背景及意义

1-1-1 文本分类概述

1-1-2 研究背景及意义

§1-2 文本分类国内外研究现状

1-2-1 文本分类在国外的发展

1-2-2 文本分类在国内的发展

§1-3 课题研究的工作和内容组织

1-3-1 课题研究的内容及主要工作

1-3-2 论文的章节安排

第二章文本分类的相关技术

§2-1 文本分类的基本概念

2-1-1 文本分类问题描述

2-1-2 文本分类的技术线路

§2-2 文本表示模型

2-2-1 文本表示方法

2-2-2 向量空间模型

§2-3 常用特征项提取方法

2-3-1 词频方法DF（Document Frequency: DF）

2-3-2 信息增益方法IG（Information Gain:IG）

2-3-3 互信息方法MI（Mutual Information:MI）

2-3-4 X2统计量（CHI）

§2-4 常用的几种分类算法

2-4-1 简单向量距离算法

2-4-2 KNN（近邻居）算法

2-4-3 朴素贝叶斯算法

2-4-4 神经网络算法

§2-5 本章小结

第三章词语权重计算方法的改进

§3-1 常用的特征提取方法

3-1-1 文档频数DF

3-1-2 信息增益

3-1-3 期望交叉熵

3-1-4 互信息

3-1-5 X2统计（CHI）

§3-2 传统的TFIDF 特征权重算法分析

§3-3 传统的TFIDF 特征权重算法改进

3-3-1 传统的TFIDF 特征权重算法的不足

3-3-2 对传统TFIDF 特征权重算法的改进

§3-4 实验结果与分析

3-4-1 实验的介绍

3-4-2 传统的TFIDF 特征权重算法实验

3-4-3 改进的 TFIDF 特征权重算法实验

3-4-4 特征权重算法改进前与改进后的对比图

3-4-5 特征权重算法的对分类性能的影响

§3-5 本章小结

第四章基于词语权重的文本分类系统的设计与实现

§4-1 文本分类系统实现的目的与意义

§4-2 文本分类系统框架设计

§4-3 文本分类系统总体结构

§4-4 文本分类系统的功能模块说明

4-4-1 语料库维护

4-4-2 网页预处理

4-4-3 文本表示

4-4-4 基于词语权重的分类模型

4-4-5 训练集和测试集

4-4-6 性能评估模块

§4-5 文本分类实验

4-5-1 实验环境

4-5-2 实验过程及结果

4-5-3 实验结果分析

第五章总结和展望

§5-1 总结

§5-2 展望

参考文献

致谢

基于词语权重的中文文本分类算法的研究

论文摘要

论文目录

相关论文文献

猜你喜欢