论文摘要
随着信息时代的来临以及互联网络的飞速普及,人们的生活习惯也随之发生了很大的变化,把更多的时间和精力从报纸刊物转向了网络媒体。网络媒体已经成为了人们获取信息的重要途径。但是,面对浩瀚如烟的海量网络数据,如何快速准确地定位到自己感兴趣的内容,成为了我们需要解决的问题。文本数据挖掘是利用计算机通过某种手段从文本数据中获得有价值信息的一项技术。其中,文本分类和文本聚类是这项计算机处理技术中非常重要的两种方法。研究发现,用于分类和聚类中传统的特征选择方法无法考察特征词词频在文本集合中的分布,因而这些方法不能精确地衡量特征词的类别区分能力。为了弥补这点不足,本文将云模型理论引入文本特征选择中,所做的工作主要有以下几个方面。第一、对文本分类和聚类技术进行了较为详细地阐述。对其中传统的特征选择方法做了深入地研究和探讨,详细地对比和分析了它们的区别和存在的不足。第二、在文本分类中,利用云模型理论分别从关联度和区分度两个方面来衡量特征词的重要程度。本文将特征词映射成分类词云滴,用关联云来描述词云滴在单个类别中的分布,用区分云描述词云滴在多个类别中的分布,进而构建关联云过滤器和区分云过滤器进行特征选择。实验采用朴素贝叶斯和SVM这两种分类器来验证这种方法的有效性。第三、在文本聚类中,利用云模型理论将特征词映射成聚类词云滴,并将词云滴跃升聚类文档云。构造聚类文档云过滤器在无类别标识的文档中选择有区分能力的特征词。实验采用K-means聚类算法验证了聚类云特征的有效性。总体而言,本文基于云模型理论中不确定性思想,并结合不确定性概念中的模糊性和随机性对文本数据挖掘中的特征选择进行了初步的研究。在分类和聚类两个方面取得了一定的成效。
论文目录
摘要Abstract第一章 绪论1.1 研究背景和意义1.2 本文所做的工作1.3 文章的组织结构第二章 相关研究工作概述2.1 文本数据挖掘技术介绍2.1.1 文本分类技术介绍2.1.2 文本聚类技术介绍2.2 关于特征选择的国内外研究现状2.3 云模型理论背景知识介绍及应用2.3.1 云的定义2.3.2 云模型中三个重要的数字特征2.3.3 正向云发生器2.3.4 逆向云发生器2.3.5 云模型理论在自然语言处理领域中的应用第三章 文本分类中基于云模型的特征选择3.1 文本分类方法介绍3.1.1 朴素贝叶斯分类器3.1.2 SVM分类器3.2 文本分类中常用的特征选择方法3.2.1 方法描述3.2.2 方法评价和分析3.3 基于云理论的文本特征选择3.3.1 构建关联云3.3.2 关联云过滤器选择特征3.3.3 构建区分云3.3.4 区分云过滤器选择特征3.4 实验描述3.4.1 语料来源3.4.2 实验步骤3.5 实验结果与分析3.5.1 评价指标3.5.2 实验结果3.5.3 实验分析3.6 本章小结第四章 文本聚类中基于云模型的特征选择4.1 K-MEANS文本聚类方法介绍4.2 基于TF-IDF的文本特征选择4.3 基于云理论的文本特征选择4.3.1 构建聚类文档云4.3.2 聚类文档云过滤器选择特征4.4 基于云特征的K-MEANS文本聚类4.4.1 实验描述4.4.2 语料来源4.4.3 实验步骤4.5 实验结果与分析4.5.1 评价指标4.5.2 实验结果4.5.3 实验分析4.6 本章小结第五章 总结与展望5.1 全文总结5.2 未来工作展望参考文献硕士期间发表的论文和参与的项目致谢
相关论文文献
标签:云模型论文; 特征选择论文; 文本分类论文; 文本聚类论文;