中文Web文本分类新技术的研究和应用

中文Web文本分类新技术的研究和应用

论文摘要

随着网络信息技术的高速发展,Internet上的Web页面数量呈指数增长,如何有效的组织和处理这些海量信息,如何更好地搜索、过滤和管理这些网络资源,成了一个亟待解决的问题。其中,Web文本分类技术是信息检索和数据挖掘的核心内容,基于机器学习的文本分类方法已经取得了较好效果,但是它仍然存在如何提高分类精度和分类速度两大难题。本文研究的对象是中文Web本文,针对中文文本的特殊性,首先研究了中文分词方法,并提出了一种基于二元语法的N-最大概率中文粗分模型,该模型能够较好地得到少量高召回率、高效率的粗分结果,更大程度地保留歧义字段和未登录词,进而提高后续分词质量。然后针对中文Web本文的信息量巨大且内容更新速度快等特点,提出了一种新的Web文本表示方法,即基于新词发现的表示方法:用词和新词共同来表示Web文本,理论和实验表明该方法可以帮助识别未登录词并扩充现有字典,能够增强Web文本表示能力,改善Web文本的特征项质量,最终提高Web文本分类效果。在现有分类算法中,KNN算法是一种简单、有效、非参数的分类算法,在Web文本分类中得到广泛的应用并取得较好的分类效果;但是该算法存在两个显著不足,其一:计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到K个最近邻样本;其二:当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对KNN这两个问题,本文提出了一种改进的KNN分类算法,即先通过Rocchio算法快速得到k0个候选类别,然后在k0个类别中采用改进的相似度计算方法来提高分类精度。由于Web文本资源通常采用层次结构来组织,因此本文也探讨了层次分类,提出了层次结构和KNN算法相结合的Web文本分类算法,利用层次结构来提高分类速度,而KNN算法弥补层次分类中的精度问题。实验表明,以上两种改进的KNN分类算法都能很大程度地提高分类效率,同时也一定程度上提高了分类精度。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 研究意义
  • 1.3 研究现状
  • 1.4 研究内容
  • 第二章 中文WEB 文本分类概述
  • 2.1 WEB 文本表示与计算
  • 2.1.1 Web 文本预处理
  • 2.1.2 文本特征的表示
  • 2.1.3 文本相似度的计算
  • 2.2 特征选择相关算法
  • 2.2.1 文档频率
  • 2.2.2 互信息
  • 2.2.3 信息增益
  • 2 统计量'>2.2.4 χ2统计量
  • 2.2.5 期望交叉值
  • 2.3 文本分类相关算法
  • 2.3.1 文本相似度算法
  • 2.3.2 朴素贝叶斯
  • 2.3.3 神经网络
  • 2.3.4 支持向量机
  • 2.3.5 决策树
  • 2.4 性能评价及语料库介绍
  • 2.4.1 性能评价
  • 2.4.2 相关语料
  • 第三章 基于二元语法的N-最大概率中文粗分模型
  • 3.1 N-最短路径中文粗分模型
  • 3.1.1 基本原理
  • 3.1.2 模型求解
  • 3.2 基于二元语法的中文粗分模型
  • 3.2.1 二元语法介绍
  • 3.2.2 参数估计和数据平滑
  • 3.2.3 模型求解
  • 3.3 实验及结果
  • 3.3.1 实验设计
  • 3.3.2 结果与分析
  • 3.4 本章小结
  • 第四章 基于新词发现的WEB 文本表示方法
  • 4.1 网页净化
  • 4.2 新词发现过程
  • 4.2.1 新词概述
  • 4.2.2 新词发现
  • 4.3 WEB 文本表示新方法
  • 4.4 实验及结果
  • 4.4.1 实验设计
  • 4.4.2 结果与分析
  • 4.5 本章小结
  • 第五章 WEB 文本KNN 分类算法的研究
  • 5.1 KNN 分类算法简介
  • 5.2 改进的KNN WEB 文本分类算法
  • 5.2.1 Rocchio 方法的使用
  • 5.2.2 改进的KNN 分类算法
  • 5.2.3 实验设计
  • 5.2.4 结果与分析
  • 5.3 层次结构和KNN 相结合的WEB 文本分类算法
  • 5.3.1 建立层次结构模型
  • 5.3.2 Web 文本层次分类算法
  • 5.3.3 结合层次结构的KNN 分类算法
  • 5.3.4 实验设计
  • 5.3.5 结果与分析
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 附录:作者在攻读硕士学位期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    中文Web文本分类新技术的研究和应用
    下载Doc文档

    猜你喜欢