文本分类新方法的研究与应用

文本分类新方法的研究与应用

论文摘要

网络技术的快速发展使得互联网上的信息呈现爆炸式的增长。为了有效地利用和管理海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类技术TC(Text Categorization)是信息检索和数据挖掘的核心内容。其中基于机器学习的文本分类方法被认为在分类精度和灵活性上达到了较为满意的效果,但是它仍然存在着譬如非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web网页分类等问题。本文在数据集不完整和类别关系复杂的情况下进行了一系列的研究,主要包括文本表示,特征提取,特征选择,以及文本分类算法等问题。重点的目标就是通过研究这些问题找到如何在不完整样本集下提高文本分类精度的方法,以及如何在样本集中类别无法确定的情况下,发现新的类别,避免错分,借此提高文本分类效果。现实世界中的数据往往是不完整的,因此对于不完整数据集的文本分类的研究,经常采用的方法是利用朴素贝叶斯分类模型与EM算法相结合的办法来得到最终的分类器。但由于朴素贝叶斯分类器和EM算法对初始数据值有很大的依赖性,特别是当样本集中的无标记文本即缺失数据数量所占比重较大时,分类器的测试精度会受到影响。为了改善文本分类的效果,本文在Bernoulli混合模型和EM算法的基础上进行了研究。首先通过朴素贝叶斯算法在已标记数据的基础上得到似然函数参数估计初始值,然后利用含有权值λ的EM算法和Bernoulli混合模型对分类器的先验概率模型进行参数估计,从而得到最终的分类器。实验结果表明,对于不完整数据集而言所提出的方法在准确率和查全率方面要优于朴素贝叶斯文本分类及结合了EM算法的朴素贝叶斯分类。在以上方法基础上对不完整数据集对于文本分类的影响进行了进一步的研究。发现适当的在测试集中加入未标记数据样本是在现实世界中是需要经常面对的问题,本文在这方面做了相关的工作,将网页分类看成文本分类的一种特殊情况,同时考虑了网页结构对文本分类造成的影响,重点研究了文本相似度算法在这类问题上的应用,简单的文本相似度算法无法区分出有类别文本和无类别文本的区别,本文的研究结合特征提取,特征选择,最优截尾法,提出了一种新的文本分类方法,首先对网页进行预处理,得到想要的网页内容,在此基础上借助特征向量在有类别文本和无类别文本上的不同分布,达到区分不同类别的目的。实验证明这种方法对于不完整数据而言,一方面可以改善分类精度,另一方面可以达到发现新类别的目的。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 选题背景和研究意义
  • 1.1.1 选题背景
  • 1.1.2 研究意义
  • 1.2 研究现状
  • 1.3 研究内容
  • 1.4 论文结构
  • 第二章 文本分类概述
  • 2.1 文本预处理与文本表示
  • 2.1.1 文本预处理
  • 2.1.2 文本表示
  • 2.1.3 特征选择
  • 2.2 文本分类相关算法
  • 2.2.1 文本相似度算法
  • 2.2.2 朴素贝叶斯模型
  • 2.2.3 K 近邻
  • 2.2.4 神经网络
  • 2.2.5 支持向量机
  • 2.3 性能评价与相关语料库
  • 2.3.1 性能评价
  • 2.3.2 相关语料
  • 第三章 基于不完整数据集的文本分类技术概要
  • 3.1 朴素贝叶斯方法
  • 3.2 直推向量机方法
  • 3.3 PU-learning 问题
  • 第四章 改进的基于不完整数据集的文本分类新方法
  • 4.1 统计推理和似然估计
  • 4.2 混合模型的EM 算法
  • 4.2.1 EM 算法介绍
  • 4.2.2 EM 算法推导
  • 4.3 B-EMNB 算法
  • 4.4 实验与结果
  • 4.4.1 实验组一
  • 4.4.2 实验组二
  • 4.4.3 实验组三
  • 4.4.4 实验组四
  • 4.5 小结
  • 第五章 基于不完整数据集发现新类别的文本分类方法
  • 5.1 文本相似度算法
  • 5.2 网页噪音处理
  • 5.3 LUD 分类算法
  • 5.4 实验与结果
  • 5.4.1 实验组一
  • 5.4.2 实验组二
  • 5.4.3 实验组三
  • 5.5 小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 附录:作者在攻读硕士学位期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    文本分类新方法的研究与应用
    下载Doc文档

    猜你喜欢