基于知识库的自动分类系统设计与实现

基于知识库的自动分类系统设计与实现

论文摘要

随着计算机技术和网络技术的飞速发展,网络上的文本信息资源数量急剧增长。极其丰富的数据资源却让使用者陷入困境,如此多的信息分散、无序,增加了人们对网络信息资源利用的难度。因此,需要一种简单有效的方法把这些信息有序地组织起来,使用户方便快速地获取其中潜在的有价值的知识。文本自动分类是一个有效的解决方法,成为信息处理领域的一个研究热点。本文以已有的标引经验数据为基础,从构建知识库,自动分词,特征项选取,特征项权重计算,分类算法几个方面进行论述,最后设计并实现了一个基于知识库的文本自动分类系统。全文共分为五部分:第一章绪论,主要介绍了论文的研究背景和意义,以及文本分类技术在国内外研究现状,并给出本文的主要内容和结构。第二章以《中图法》分类体系为基础构建分类知识库。知识库的数据主要来源于《中图法》,《期刊网》和厦门大学图书馆书目数据。对这些数据进行收集、整理,形成一个多词表的分类知识库。第三章讲述的是自动标引过程,包括特征项粒度的选取、分词算法、词典的组织以及特征项选取。以关键词作为特征项粒度,通过对目前常用的几种分词算法进行比较研究,采用逆向最大匹配算法作为本文的分词算法,特征项选取原则采用词频与位置加权结合的方式。最后对自动标引的结果进行了评测,标引结果达到了比较满意的效果。第四章针对特征项权重计算方法进行了改进,并提出了基于类目概念组配原理的分类方法。根据本文样本数据的特点,采用Dice系数作为特征项权重计算方法。从影响关键词在某类中的权重的角度考虑,对原算法进行改进,引入关键词在当前类包含的所有关键词中占的比例、类别平均样本数与当前类别样本数之比两个参数。根据类目概念组配原理,将各关键词的权重归并计算得到权值最大的分类号作为待分类文本的最佳分类号。第五章是中文文本分类系统的设计与实现,并对自动分类进行测试。实验结果显示,改进算法的各个评测指标均比其它两种算法高出5-6个百分点。最后总结了文章的不足之处以及下一步工作需要改进的方面。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 文本自动分类研究的背景与意义
  • 1.2 文本自动分类技术发展状况
  • 1.2.1 文本分类技术的定义
  • 1.2.2 国外研究概况
  • 1.2.3 国内研究概况
  • 1.3 本文研究内容与组织结构
  • 1.4 本章小结
  • 第二章 分类知识库的建立
  • 2.1 分类体系的选择
  • 2.2 知识库构建的难点
  • 2.3 知识库的组成
  • 2.4 知识库构建步骤
  • 2.5 知识库的维护
  • 2.6 本章小结
  • 第三章 自动标引
  • 3.1 文本特征项粒度的选取
  • 3.2 文本预处理
  • 3.3 自动分词
  • 3.3.1 自动分词的难点
  • 3.3.2 分词算法
  • 3.4 特征项选取
  • 3.5 新词识别
  • 3.6 自动标引评价
  • 3.7 本章小结
  • 第四章 自动分类
  • 4.1 自动分类深度
  • 4.2 特征项的权重计算
  • 4.2.1 文档频数(Document Frequency,DF)
  • 4.2.2 互信息(Mutual Information,MI)
  • 4.2.3 信息增益(Information Gain,IG)
  • 4.2.4 对数似然比(Log Likelihood Ratio,LLR)
  • 4.2.5 Dice系数
  • 4.3 自动分类算法
  • 4.4 分类算法测试
  • 4.5 本章小结
  • 第五章自动分类系统设计与实现
  • 5.1 系统框架
  • 5.2 评测标准
  • 5.3 总结与展望
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    基于知识库的自动分类系统设计与实现
    下载Doc文档

    猜你喜欢