基于Web的中文文档自动分类的研究与实现

论文摘要

因特网上的信息日益丰富,己经成为知识获取的一个重要来源。信息资源的丰富也使信息的检索有如大海捞针,检索到自己所需要的信息资源效率不高。对信息进行整理,提高信息检索的效率具有非常重要的意义。本课题的研究的内容是对中文Web文档进行自动整理归类,以提高用户对信息检索的体验,同时它是搜索引擎、信息过滤、信息检索、文本数据库、数字化图书馆等领域的核心技术。文本分类通常是指在给定分类体系的情况下,根据文本的属性(内容)自动确定其所属类别的过程。一般情况下,文本分类需要有训练集的支持。所谓的训练集是指一个文本的集合,由一组已经完成分类(即给定类别标号)的文本组成。而且根据分类体系的设定,每一个类别都应含有一定数量的训练文本。分类器通过某种学习方法完成训练后才可以用于分类未知文本。文本分类技术可以为信息的组织管理提供有效的支持,更好的满足信息检索的需求。该技术的好坏直接影响到搜索效率的高低。本文主要对文本自动分类中的特征提取以及文本分类算法等几个核心技术进行了深入的研究。提出了一种结合多线程技术实现的并行开放的文本自动分类解决方案。将各种文本分类算法集成为一种可选择单一运行,可并行同时运行的机制。并且可对各算法给出一个开放性的接口进行管理。可添加新的文本分类算法,也可以删去过时的文本分类算法。特征提取方法也采取了类似的办法。这样的做法大大提高了文本分类系统的兼容性及准确性。并且在最后实现了一个完整的文本自动分类系统以检测本论文提出的文本分类算法的效率。

论文目录

摘要

ABSTRACT

第1章绪论

1.1 课题来源

1.2 研究的背景和现实意义

1.3 国内外的研究现状

1.3.1 Web 文本挖掘的研究现状

1.3.2 Web 文本分类的研究现状

1.3.3 需要进一步研究的问题

1.4 本课题的主要研究内容

第2章特征提取及文本分类技术的研究

2.1 特征提取

2.1.1 IG 特征提取

2.1.2 MI 特征提取

2.1.3 CHI 特征提取

2.1.4 DF 特征提取

2.2 分类方法

2.2.1 贝叶斯方法

2.2.2 K-近邻方法

2.2.3 决策树方法

2.2.4 支持向量机方法

2.2.5 神经网络方法

2.2.6 基于投票的方法

2.2.7 Rocchio 方法

2.2.8 Sleeping Expert 方法

2.3 本章小结

第3章系统的总体设计与分析

3.1 系统的总体设计

3.2 系统的评价方法

3.2.1 特征提取的目的

3.2.2 相关定义

3.2.3 分类算法评价标准

3.3 本章小结

第4章系统的总体实现

4.1 网络蜘蛛的实现

4.2 预处理

4.2.1 HTML 文本处理加权方案

4.2.2 分词前的预处理

4.2.3 HTML 预处理算法

4.3 特征抽取

4.4 特征提取

4.5 特征表示

4.6 分类器

4.6.1 经典型工作方式

4.6.2 偏全型工作方式

4.6.3 偏准型工作方式

4.6.4 混合型工作方式

4.7 评测器

4.8 本章小结

第5章实验结果与分析

5.1 数据集

5.2 实验结果与讨论

5.2.1 分类方法试验结果

5.2.2 特征提取实验结果

5.3 本章小结

结论

参考文献

攻读硕士学位期间发表的学术论文

致谢

基于Web的中文文档自动分类的研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢