论文摘要
随着网络信息技术的高速发展,Internet上的Web页面数量呈指数增长,如何有效的组织和处理这些海量信息,如何更好地搜索、过滤和管理这些网络资源,成了一个亟待解决的问题。其中,Web文本分类技术是信息检索和数据挖掘的核心内容,基于机器学习的文本分类方法已经取得了较好效果,但是它仍然存在如何提高分类精度和分类速度两大难题。本文研究的对象是中文Web本文,针对中文文本的特殊性,首先研究了中文分词方法,并提出了一种基于二元语法的N-最大概率中文粗分模型,该模型能够较好地得到少量高召回率、高效率的粗分结果,更大程度地保留歧义字段和未登录词,进而提高后续分词质量。然后针对中文Web本文的信息量巨大且内容更新速度快等特点,提出了一种新的Web文本表示方法,即基于新词发现的表示方法:用词和新词共同来表示Web文本,理论和实验表明该方法可以帮助识别未登录词并扩充现有字典,能够增强Web文本表示能力,改善Web文本的特征项质量,最终提高Web文本分类效果。在现有分类算法中,KNN算法是一种简单、有效、非参数的分类算法,在Web文本分类中得到广泛的应用并取得较好的分类效果;但是该算法存在两个显著不足,其一:计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到K个最近邻样本;其二:当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对KNN这两个问题,本文提出了一种改进的KNN分类算法,即先通过Rocchio算法快速得到k0个候选类别,然后在k0个类别中采用改进的相似度计算方法来提高分类精度。由于Web文本资源通常采用层次结构来组织,因此本文也探讨了层次分类,提出了层次结构和KNN算法相结合的Web文本分类算法,利用层次结构来提高分类速度,而KNN算法弥补层次分类中的精度问题。实验表明,以上两种改进的KNN分类算法都能很大程度地提高分类效率,同时也一定程度上提高了分类精度。
论文目录
摘要Abstract第一章 绪论1.1 研究背景1.2 研究意义1.3 研究现状1.4 研究内容第二章 中文WEB 文本分类概述2.1 WEB 文本表示与计算2.1.1 Web 文本预处理2.1.2 文本特征的表示2.1.3 文本相似度的计算2.2 特征选择相关算法2.2.1 文档频率2.2.2 互信息2.2.3 信息增益2 统计量'>2.2.4 χ2统计量2.2.5 期望交叉值2.3 文本分类相关算法2.3.1 文本相似度算法2.3.2 朴素贝叶斯2.3.3 神经网络2.3.4 支持向量机2.3.5 决策树2.4 性能评价及语料库介绍2.4.1 性能评价2.4.2 相关语料第三章 基于二元语法的N-最大概率中文粗分模型3.1 N-最短路径中文粗分模型3.1.1 基本原理3.1.2 模型求解3.2 基于二元语法的中文粗分模型3.2.1 二元语法介绍3.2.2 参数估计和数据平滑3.2.3 模型求解3.3 实验及结果3.3.1 实验设计3.3.2 结果与分析3.4 本章小结第四章 基于新词发现的WEB 文本表示方法4.1 网页净化4.2 新词发现过程4.2.1 新词概述4.2.2 新词发现4.3 WEB 文本表示新方法4.4 实验及结果4.4.1 实验设计4.4.2 结果与分析4.5 本章小结第五章 WEB 文本KNN 分类算法的研究5.1 KNN 分类算法简介5.2 改进的KNN WEB 文本分类算法5.2.1 Rocchio 方法的使用5.2.2 改进的KNN 分类算法5.2.3 实验设计5.2.4 结果与分析5.3 层次结构和KNN 相结合的WEB 文本分类算法5.3.1 建立层次结构模型5.3.2 Web 文本层次分类算法5.3.3 结合层次结构的KNN 分类算法5.3.4 实验设计5.3.5 结果与分析5.4 本章小结第六章 总结与展望6.1 总结6.2 展望致谢参考文献附录:作者在攻读硕士学位期间发表的论文
相关论文文献
标签:中文分词论文; 特征选择论文; 文本表示论文; 文本分类论文; 算法论文; 层次结构论文;