文本数据挖掘中基于云模型的特征选择方法研究

文本数据挖掘中基于云模型的特征选择方法研究

论文摘要

随着信息时代的来临以及互联网络的飞速普及,人们的生活习惯也随之发生了很大的变化,把更多的时间和精力从报纸刊物转向了网络媒体。网络媒体已经成为了人们获取信息的重要途径。但是,面对浩瀚如烟的海量网络数据,如何快速准确地定位到自己感兴趣的内容,成为了我们需要解决的问题。文本数据挖掘是利用计算机通过某种手段从文本数据中获得有价值信息的一项技术。其中,文本分类和文本聚类是这项计算机处理技术中非常重要的两种方法。研究发现,用于分类和聚类中传统的特征选择方法无法考察特征词词频在文本集合中的分布,因而这些方法不能精确地衡量特征词的类别区分能力。为了弥补这点不足,本文将云模型理论引入文本特征选择中,所做的工作主要有以下几个方面。第一、对文本分类和聚类技术进行了较为详细地阐述。对其中传统的特征选择方法做了深入地研究和探讨,详细地对比和分析了它们的区别和存在的不足。第二、在文本分类中,利用云模型理论分别从关联度和区分度两个方面来衡量特征词的重要程度。本文将特征词映射成分类词云滴,用关联云来描述词云滴在单个类别中的分布,用区分云描述词云滴在多个类别中的分布,进而构建关联云过滤器和区分云过滤器进行特征选择。实验采用朴素贝叶斯和SVM这两种分类器来验证这种方法的有效性。第三、在文本聚类中,利用云模型理论将特征词映射成聚类词云滴,并将词云滴跃升聚类文档云。构造聚类文档云过滤器在无类别标识的文档中选择有区分能力的特征词。实验采用K-means聚类算法验证了聚类云特征的有效性。总体而言,本文基于云模型理论中不确定性思想,并结合不确定性概念中的模糊性和随机性对文本数据挖掘中的特征选择进行了初步的研究。在分类和聚类两个方面取得了一定的成效。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.2 本文所做的工作
  • 1.3 文章的组织结构
  • 第二章 相关研究工作概述
  • 2.1 文本数据挖掘技术介绍
  • 2.1.1 文本分类技术介绍
  • 2.1.2 文本聚类技术介绍
  • 2.2 关于特征选择的国内外研究现状
  • 2.3 云模型理论背景知识介绍及应用
  • 2.3.1 云的定义
  • 2.3.2 云模型中三个重要的数字特征
  • 2.3.3 正向云发生器
  • 2.3.4 逆向云发生器
  • 2.3.5 云模型理论在自然语言处理领域中的应用
  • 第三章 文本分类中基于云模型的特征选择
  • 3.1 文本分类方法介绍
  • 3.1.1 朴素贝叶斯分类器
  • 3.1.2 SVM分类器
  • 3.2 文本分类中常用的特征选择方法
  • 3.2.1 方法描述
  • 3.2.2 方法评价和分析
  • 3.3 基于云理论的文本特征选择
  • 3.3.1 构建关联云
  • 3.3.2 关联云过滤器选择特征
  • 3.3.3 构建区分云
  • 3.3.4 区分云过滤器选择特征
  • 3.4 实验描述
  • 3.4.1 语料来源
  • 3.4.2 实验步骤
  • 3.5 实验结果与分析
  • 3.5.1 评价指标
  • 3.5.2 实验结果
  • 3.5.3 实验分析
  • 3.6 本章小结
  • 第四章 文本聚类中基于云模型的特征选择
  • 4.1 K-MEANS文本聚类方法介绍
  • 4.2 基于TF-IDF的文本特征选择
  • 4.3 基于云理论的文本特征选择
  • 4.3.1 构建聚类文档云
  • 4.3.2 聚类文档云过滤器选择特征
  • 4.4 基于云特征的K-MEANS文本聚类
  • 4.4.1 实验描述
  • 4.4.2 语料来源
  • 4.4.3 实验步骤
  • 4.5 实验结果与分析
  • 4.5.1 评价指标
  • 4.5.2 实验结果
  • 4.5.3 实验分析
  • 4.6 本章小结
  • 第五章 总结与展望
  • 5.1 全文总结
  • 5.2 未来工作展望
  • 参考文献
  • 硕士期间发表的论文和参与的项目
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    文本数据挖掘中基于云模型的特征选择方法研究
    下载Doc文档

    猜你喜欢