论文摘要
随着计算机技术和通讯技术的飞速发展,人们可以获得的文本信息越来越多,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本信息的关键技术,可以给信息文本分配一个或多个比较合适的类别,从而提高文本检索等应用的处理效率。且作为信息过滤、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。粗糙集理论是波兰数学家1982提出的一种分析模糊和不确定知识的强有力的数学工具,作为人工智能领域的一个新的研究热点,能有效分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。粗糙集理论无需提供除问题所需处理的数据集合之外的任何先验信息;包括了知识的一种模型,使知识可用数学方法来分析处理;能获取分类所需的最小属性集,在不影响分类精度的条件下降低特征向量的维数,得到最简的显示表达的分类规则。而其它如朴素贝叶斯方法、K近邻方法都无法得到显示规则。本论文主要对基于粗糙集理论的文本分类系统进行了系统的研究。具体的研究内容和创新性研究主要概括如下:(1)详细介绍了粗糙集及其相关理论方法和文本分类的基本内容,分析了粗糙集和文本分类的研究背景及其研究现状,并对其技术的热点、研究领域及未来发展进行了探讨,为该论文的下一步展开奠定了基础。(2)通过研究现有属性约简算法的优缺点,在一般粗糙集的相对约简算法结合Tabu算法的基础上,提出了一种改进的属性约简算法。该算法以属性重要度为启发式信息,能得到一个最小约简。(3)针对分词难的问题,为屏蔽对文本分词,在单篇文献中,提出了一种基于属性重要度的文本表示方法,并给出了一种获取关键词的算法。同时这种算法克服了张雪英提出的基于GF/GL权重计算对特殊文献中同一字符串出现频率是1的难题。(4)在深入研究了文本分类和粗糙集的基础上,提出了一种基于粗糙集的文本分类系统模型,主要包括四大模块:文本预处理模块、属性约简模块、规则获取模块及其规则匹配模块。主要在属性约简模块和规则匹配模块上进行了深入的研究,最后利用仿真实验,基于粗糙集的文本分类系统是可行的。论文中存在的不足:一方面是是语料库和停用词表的限制,另一方面基于知识粒的概念和计算正处于研究阶段,没有形成统一的概念体系。通过把知识粒的大小来衡量属性重要度作为一种启发式信息用于属性约简和文本表示还很少,其中对软计算公式研究还不大透彻。自动文本分类及粗糙集理论还有很多细节问题值得去探讨,本论文提出的部分算法经仿真实验验证,本系统是可行的,但仍还有待于进一步研究。