论文摘要
随着计算机技术和网络技术的飞速发展,网络上的文本信息资源数量急剧增长。极其丰富的数据资源却让使用者陷入困境,如此多的信息分散、无序,增加了人们对网络信息资源利用的难度。因此,需要一种简单有效的方法把这些信息有序地组织起来,使用户方便快速地获取其中潜在的有价值的知识。文本自动分类是一个有效的解决方法,成为信息处理领域的一个研究热点。本文以已有的标引经验数据为基础,从构建知识库,自动分词,特征项选取,特征项权重计算,分类算法几个方面进行论述,最后设计并实现了一个基于知识库的文本自动分类系统。全文共分为五部分:第一章绪论,主要介绍了论文的研究背景和意义,以及文本分类技术在国内外研究现状,并给出本文的主要内容和结构。第二章以《中图法》分类体系为基础构建分类知识库。知识库的数据主要来源于《中图法》,《期刊网》和厦门大学图书馆书目数据。对这些数据进行收集、整理,形成一个多词表的分类知识库。第三章讲述的是自动标引过程,包括特征项粒度的选取、分词算法、词典的组织以及特征项选取。以关键词作为特征项粒度,通过对目前常用的几种分词算法进行比较研究,采用逆向最大匹配算法作为本文的分词算法,特征项选取原则采用词频与位置加权结合的方式。最后对自动标引的结果进行了评测,标引结果达到了比较满意的效果。第四章针对特征项权重计算方法进行了改进,并提出了基于类目概念组配原理的分类方法。根据本文样本数据的特点,采用Dice系数作为特征项权重计算方法。从影响关键词在某类中的权重的角度考虑,对原算法进行改进,引入关键词在当前类包含的所有关键词中占的比例、类别平均样本数与当前类别样本数之比两个参数。根据类目概念组配原理,将各关键词的权重归并计算得到权值最大的分类号作为待分类文本的最佳分类号。第五章是中文文本分类系统的设计与实现,并对自动分类进行测试。实验结果显示,改进算法的各个评测指标均比其它两种算法高出5-6个百分点。最后总结了文章的不足之处以及下一步工作需要改进的方面。