论文摘要
随着信息技术的发展和网页数量的迅速增长,出现了大量的电子文档。如何利用好这些电子文档便成为了信息技术的一项重要课题。文本分类作为一种处理和组织文本数据的方法,其目的是为了将一个待分文档分到预先设定的若干类别当中。在过去的十年间,文本分类技术有了长足的进步,并且一些实用的分类系统投入到了实际应用中。迄今为止,文本分类在那些被广泛使用的语言中得到了较好的研究和应用,但在蒙语中没有得到很好的发展。这是因为在文本分类领域蒙语的研究起步比较晚,而且蒙语单词的自动化切分处理本身有一定的难度。构造分类器在机器学习理论中处于核心地位,所以在实现了一个好的分类器的基础上,让分类器学习语料库中的知识来完成对分类模型的训练。语料库的好坏会直接影响到系统最终的性能。另外还有两个重要因素,一是分类器采用的算法(包括参数调节),二是对语料库的预处理和文本的特征选择。和其他的分类系统一样,一个好的分类系统依靠的是好的分类模型和准确的特征提取。本文介绍了一个蒙文文本分类系统的设计实现。预处理阶段完成了蒙语单词的词根词干的提取,并提供了4种方法特征提取方法。分类器则采用了K-邻近算法和支持向量机算法,因为支持向量机算法实现难度大,所以系统借助了LibSVM2.6(一个开源的软件包)。最后给出系统的分类性能。本课题源于内蒙古自然基金项目:蒙文信息检索技术的研究(项目批准号:200408020805)。文本分类自身的发展极大的推动了网络信息的检索和使用、个性化服务和资讯的获取模式,有着重要的应用价值。
论文目录
摘要ABSTRACT目录图表目录第一章 引言1.1 课题背景及文本分类发展现状1.2 主要研究内容和目的1.3 文本分类的应用1.3.1 网页的自动分类1.3.2 垃圾邮件过滤1.3.3 个性化服务1.4 开发工具、技术及开发环境1.5 论文结构第二章 文本分类的概念和向量空间模型2.1 文本分类的概念2.1.1 现代文本分类的基础理论──机器学习2.1.2 文本分类的定义2.1.2.1 文本采集2.1.2.2 特征选择2.1.2.3 分类器2.1.2.4 训练、测试及结果评价2.1.2 单分类、多分类2.1.3 阈值策略2.1.4 以文档为主的分类方法和以类别为主的分类方法2.2 向量空间模型第三章 分类器3.1 分类器概述3.2 K-邻近算法3.3 支持向量机算法3.3.1 支持向量机简介3.4 分类系统的性能评价3.4.1 常用的评估参数介绍3.4.3 其他一些评估参数介绍第四章 蒙文文本分类系统设计与关键技术问题4.1 系统总体框架4.2 词干提取4.3 特征提取4.3.1 单词的权重计算方法4.3.1.1 布尔表示方法4.3.1.2 词频度表示方法4.3.1.3 TF×IDF 权重法4.3.1.4 TFC 权重法4.3.1.5 LTC 权重法4.3.2 文本的降维和特征选择方法4.3.2.1 文档频率4.3.2.2 互信息4.3.2.3 信息增益4.3.2.4 卡方统计量4.3.2.5 交叉熵4.3.2.6 几种方法的比较4.4 样本库和数据表4.5 分类器4.4.1 K-邻近算法4.4.2 支持向量机线性可分模式的最优超平面构造4.4.3 支持向量机线性不可分模式的最优超平面构造4.4.4 常用核函数介绍4.6 系统的各项参数第五章 蒙文文本分类系统的实现5.1 蒙文词根词干提取5.1.1 名义字符和变显字符5.1.2 目的和工作5.1.3 数据结构与算法5.2 分类部分的主要数据结构与算法5.3 分类结果分析和未知文档的分类第六章 试验结果和总结6.1 试验结果6.1.1 K-邻近算法试验结果6.1.2 支持向量机算法试验结果6.2 论文总结6.3 进一步研究工作用到的数学符号、公式介绍参考文献致谢
相关论文文献
标签:蒙文论文; 文本自动分类论文; 向量空间模型论文; 邻近分类器论文; 支持向量机论文;