蒙文文本分类技术研究与系统设计实现

蒙文文本分类技术研究与系统设计实现

论文摘要

随着信息技术的发展和网页数量的迅速增长,出现了大量的电子文档。如何利用好这些电子文档便成为了信息技术的一项重要课题。文本分类作为一种处理和组织文本数据的方法,其目的是为了将一个待分文档分到预先设定的若干类别当中。在过去的十年间,文本分类技术有了长足的进步,并且一些实用的分类系统投入到了实际应用中。迄今为止,文本分类在那些被广泛使用的语言中得到了较好的研究和应用,但在蒙语中没有得到很好的发展。这是因为在文本分类领域蒙语的研究起步比较晚,而且蒙语单词的自动化切分处理本身有一定的难度。构造分类器在机器学习理论中处于核心地位,所以在实现了一个好的分类器的基础上,让分类器学习语料库中的知识来完成对分类模型的训练。语料库的好坏会直接影响到系统最终的性能。另外还有两个重要因素,一是分类器采用的算法(包括参数调节),二是对语料库的预处理和文本的特征选择。和其他的分类系统一样,一个好的分类系统依靠的是好的分类模型和准确的特征提取。本文介绍了一个蒙文文本分类系统的设计实现。预处理阶段完成了蒙语单词的词根词干的提取,并提供了4种方法特征提取方法。分类器则采用了K-邻近算法和支持向量机算法,因为支持向量机算法实现难度大,所以系统借助了LibSVM2.6(一个开源的软件包)。最后给出系统的分类性能。本课题源于内蒙古自然基金项目:蒙文信息检索技术的研究(项目批准号:200408020805)。文本分类自身的发展极大的推动了网络信息的检索和使用、个性化服务和资讯的获取模式,有着重要的应用价值。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 图表目录
  • 第一章 引言
  • 1.1 课题背景及文本分类发展现状
  • 1.2 主要研究内容和目的
  • 1.3 文本分类的应用
  • 1.3.1 网页的自动分类
  • 1.3.2 垃圾邮件过滤
  • 1.3.3 个性化服务
  • 1.4 开发工具、技术及开发环境
  • 1.5 论文结构
  • 第二章 文本分类的概念和向量空间模型
  • 2.1 文本分类的概念
  • 2.1.1 现代文本分类的基础理论──机器学习
  • 2.1.2 文本分类的定义
  • 2.1.2.1 文本采集
  • 2.1.2.2 特征选择
  • 2.1.2.3 分类器
  • 2.1.2.4 训练、测试及结果评价
  • 2.1.2 单分类、多分类
  • 2.1.3 阈值策略
  • 2.1.4 以文档为主的分类方法和以类别为主的分类方法
  • 2.2 向量空间模型
  • 第三章 分类器
  • 3.1 分类器概述
  • 3.2 K-邻近算法
  • 3.3 支持向量机算法
  • 3.3.1 支持向量机简介
  • 3.4 分类系统的性能评价
  • 3.4.1 常用的评估参数介绍
  • 3.4.3 其他一些评估参数介绍
  • 第四章 蒙文文本分类系统设计与关键技术问题
  • 4.1 系统总体框架
  • 4.2 词干提取
  • 4.3 特征提取
  • 4.3.1 单词的权重计算方法
  • 4.3.1.1 布尔表示方法
  • 4.3.1.2 词频度表示方法
  • 4.3.1.3 TF×IDF 权重法
  • 4.3.1.4 TFC 权重法
  • 4.3.1.5 LTC 权重法
  • 4.3.2 文本的降维和特征选择方法
  • 4.3.2.1 文档频率
  • 4.3.2.2 互信息
  • 4.3.2.3 信息增益
  • 4.3.2.4 卡方统计量
  • 4.3.2.5 交叉熵
  • 4.3.2.6 几种方法的比较
  • 4.4 样本库和数据表
  • 4.5 分类器
  • 4.4.1 K-邻近算法
  • 4.4.2 支持向量机线性可分模式的最优超平面构造
  • 4.4.3 支持向量机线性不可分模式的最优超平面构造
  • 4.4.4 常用核函数介绍
  • 4.6 系统的各项参数
  • 第五章 蒙文文本分类系统的实现
  • 5.1 蒙文词根词干提取
  • 5.1.1 名义字符和变显字符
  • 5.1.2 目的和工作
  • 5.1.3 数据结构与算法
  • 5.2 分类部分的主要数据结构与算法
  • 5.3 分类结果分析和未知文档的分类
  • 第六章 试验结果和总结
  • 6.1 试验结果
  • 6.1.1 K-邻近算法试验结果
  • 6.1.2 支持向量机算法试验结果
  • 6.2 论文总结
  • 6.3 进一步研究工作
  • 用到的数学符号、公式介绍
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    蒙文文本分类技术研究与系统设计实现
    下载Doc文档

    猜你喜欢