中文文本自动分类系统的研究与实现

论文摘要

本文讨论文本分类技术和方法。第一章介绍了自动文本分类技术的产生背景及其意义,包括自动文本分类的问题描述、评价方法以及技术的种类,综述了国外技术的研究现状。第二章介绍中文文本自动分类的技术基础。第三章讨论文本分类的关键技术,对文本分类中的文本表示、特征项的提取、训练算法和分类算法以及阈值的确定都作了较为详细的阐述。第四章是本论文的重点,首先对于分词歧义处理的情况进行了分析,讨论了上下文的双向扫描分词算法。引进χ2统计量参与项的权值的计算,把现在通用的tfc加权法的不足之处作了分析。另外,对于文本分类的过程中,老的做法是所有类别都具有同一个特征项集,使所选出的特征并不具备区分类别的能力或者有些类别的特征概括不全。所以本文才讨论对于每一个文本类别,都单独赋予一个特征项集,并且对于同一个词项在不同类别所对应的特征项集中的权重都不是相同。而后又将项的类内文档频率的概念引入项的权重计算中去,加强了特征项对于文本分类的有效性。关于文本分类算法,提出了项打分分类算法。第五章通过实验阐明了改进后的权重计算方法的优点,更证明了项打分分类算法是可以运用的。

论文目录

内容提要

第一章绪论

1.1 课题背景及意义

1.2 文本自动分类技术的应用价值

1.3 文本分类系统的问题描述

1.3.1 评价方法

1.3.2 系统任务

1.4 文本分类系统的研究情况

第二章文本分类

2.1 特征选择

2.2 项的权重

2.3 文本分类的评估指标

2.4 常用分类算法

2.4.1 引言

2.4.2 文本分类模型

2.4.3 几种分类算法的研究

第三章中文文本自动分类的技术基础

3.1 相关定义

3.2 分类

3.2.1 单标记与多标记分类

3.2.2 类别的分类与文档的分类

3.3 机器学习方法

3.4 向量空间模型

3.4.1 文献空间

3.4.2 项权重

3.4.3 相似度度量

3.4.4 向量空间模型的优势

3.5 中文自动分词

3.5.1 词典的分词方法

3.5.2 基于统计的分词方法

3.5.3 歧义的消解

3.5.4 未登录词

第四章中文文本自动分类系统的设计与实现

4.1 中文自动分词

4.1.1 中文分词模块算法

4.1.2 分词词典

4.2 系统简介

4.3 项打分分类算法的实现

4.4 特征提取

4.3.1 传统的 TF-IDF 加权法

4.3.2 改进的 TF-IDF 加权法

4.3.3 本系统所用到的权重设定方法

4.5 本章小结

第五章实验及分析

5.1 实验所用语料库

5.2 权重计算算法比较

5.3 项打分法与KNN 法结果比较

5.4 T 取不同值的情况下的实验结果比较

第六章总结与展望

6.1 总结

6.2 展望

参考文献

摘要

ABSTRACT

致谢

导师及作者简介

中文文本自动分类系统的研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢