论文摘要
随着信息技术的迅速发展,网络信息不断膨胀。如何让网络信息更好地为人类服务,已成为未来几年的一个研究热点。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是网络信息的纷繁芜杂,在这两者之间架设一座桥梁的确是一个巨大的挑战。网页自动分类技术正为解决这个问题提供了一种合理有效地组织信息的方法。为了有效地组织和分析网页信息,帮助用户迅速地获取所需要的信息,论文针对不同用户对网络信息的不同需求来提取对应的规则,同时根据知识中规则与例外相互补充的学习理论对存在的例外进行分析,从而对中文网页文本进行精确分类。本文从理论和应用的角度对中文网页文本信息的分类技术进行了深入的研究,提出了将粗糙集与面向自然语言处理的规则与例外学习理论应用到中文网页分类中,并实现了一个基于粗糙集的“规则+例外”中文网页分类系统。论文对中文网页分类的关键技术、粗糙集理论的主要内容、规则归纳以及例外分析进行了系统的研究和详细的介绍,并在这些理论知识的指导下设计了一个解决用户需求的中文网页文本分类器。论文主要做了以下研究工作:网页文本分类首先需要收集WEB文本,对WEB文本进行预处理,保存其中的文本信息。在这部分,文章首先实现了抢先式多线程中文网页收集器,采用深度优先的算法获取特定类型的网页,接着根据HTML Tag文本的特点,实现了基于非递归方式匹配的WEB文本预处理器,它用于提取网页中的文本信息以及定义的网页标记集。其次,本文在研究文本信息表示和网页信息特点的基础上,改进了中文网页文本表示的权重计算方法,设计了面向用户需求的属性约简算法,该算法在文本分类系统中取得了较好的效果。此外,本文结合粗糙集理论中的研究内容分析了规则与例外的形成过程,并提出基于reduct的例外鉴别方法。论文最后设计了中文网页文本分类系统的总体方案,并根据方案实现了基于粗糙集的“规则+例外”中文网页文本分类系统。为了进行实验评估,论文进行了两组实验进行结果比较。实验数据表明本文设计的网页文本分类器提高了网页文本分类的效率,有一定的实际意义。
论文目录
摘要ABSTRACT第一章 引言1.1 研究背景1.2 网页分类的研究与发展1.3 网页分类技术概述1.3.1 中文网页文本分类的过程1.3.2 中文网页信息结构的特点1.4 本文主要工作1.4.1 本文的创新点1.4.2 论文的组织第二章 中文网页文本分类的关键技术2.1 训练样本集2.2 文本的表示模型2.2.1 布尔模型2.2.2 概率模型2.2.3 向量空间模型2.3 特征项提取2.3.1 文档频率2.3.2 信息增益2.3.3 互信息2.3.4 开方拟和检验2.4 文本分类技术2.4.1 文本分类模式2.4.2 常用的文本分类方法第三章 基于粗糙集的“规则+例外”网页分类3.1 粗糙集理论概述3.2 粗糙集理论的主要概念3.3 知识约简的计算方法3.4 粗糙集理论在网页分类中的应用3.5 规则归纳3.5.1 常用的规则归纳方法3.5.2 规则归纳的应用3.6 例外分析3.6.1 例外分析的方法3.6.2 例外分析的应用3.6.3 规则+例外学习的应用3.7 基于粗糙集的“规则+例外”网页分类3.7.1 面向用户需求的约简算法设计3.7.2 规则与例外的选择第四章 基于粗糙集的“规则+例外”网页分类器设计4.1 系统流程4.2 实验平台的选择4.3 实验语料数据4.3.1 中文网页收集器工作原理4.3.2 中文网页收集器设计4.3.3 中文网页收集器实现4.4 网页预处理4.4.1 HTML解析4.4.2 中文分词4.4.3 去掉停用词4.5 特征提取与权重计算算法设计4.5.1 特征提取算法设计4.5.2 改进的权重计算方法4.6 建立条件属性向量与提取属性值域4.7 面向用户需求的约简算法实现4.8 分类算法第五章 实验结果与总结5.1 分类质量评价与试验结果分析5.1.1 分类性能评估指标5.1.2 实验结果与分析5.2 本文的总结5.3 进一步的研究工作参考文献致谢攻读硕士学位期间发表的论文
相关论文文献
标签:文本分类论文; 特征提取论文; 粗糙集论文; 规则归纳论文; 例外分析论文;