基于粗糙集的K-means研究

基于粗糙集的K-means研究

论文摘要

数据挖掘技术从大量的数据中发现隐含的知识和规律。它既是一种知识的获取,又是一种数据处理过程。从工程的角度讲,数据挖掘是一个需要反复多次对数据进行处理的过程。数据挖掘获取的信息可以广泛的应用到商务管理、生产控制、市场分析、工程设计等各个领域。粗糙集在数据挖掘中有着广泛的应用。本文简述了粗糙集的基本理论、深入研究了融合粗糙度和知识粗糙熵的基本概念。通过研究,得出了粗糙度、知识的粗糙熵、粗糙集的粗糙熵随着知识更细的划分而单调下降的结论。本文将粗糙集的基本理论知识与K-means算法相结合,提出了一种混合的属性约简算法:KRS算法。KRS算法是基于属性频率的约简算法,是一种新的区分矩阵约简算法。本文对传统的聚类算法进行了改进,克服了传统算法通过文本距离来确定文本相似度,而忽略文本的相似性所造成的聚类过程不精确的缺点。本文的研究工作主要体现在以下几个方面:第一、利用常用的特征选择方法降低了文本维数,提出了一种新的粗糙集约简算法对文本属性进行前向选择,产生几个约简,在利用粗糙集约简算法去掉冗余属性;第二、使用K-means聚类算法进行文本的聚类,在每一次聚类的结果中用粗糙集进行再次聚类。通过实验,发现聚类的结果与实际理想情况下的分类的结果越来越接近。在这个基础上,将基于粗集的特征选择方法与文本聚类结合起来,进而得到高效的结果。整个过程分成两段:首先将多约简算法作为前端预处理工具,进行文本特征选择,然后用K-means方法对约简后的属性进行分类过滤。降低了属性维数,减少了计算量,同时提高了分类速度;第三、提出了一种基于属性重要度的粗糙集和相关过滤器结合的、针对主题特殊文本过滤的新方法。通过实验结果可以看出,未经粗糙集约简的文本属性集和经过快速约简的文本属性集相比较,当约简个数m取值增加后,所选择的属性个数大大减少,精度也随之提高。本文基于以上的研究结果,利用WEKA数据挖掘平台与知识分析平台进行二次开发,对海量的数据进行分析,结果证明了本文算法的优越性。同时,在MyEclipse上实现了对k-means模块改进处理,通过验证,证实了程序的可行性。

论文目录

  • 致谢
  • 中文摘要
  • ABSTRACT
  • 目录
  • 1 引言
  • 1.1 网络传播的现状
  • 1.2 计算机对自然语言的处理
  • 1.3 本文的组织结构
  • 2 文本特征选择技术与文本聚类技术的研究
  • 2.1 中文分词技术
  • 2.2 文本特征选择技术
  • 2.3 文本过滤的相关概念
  • 2.4 文本分类的概念
  • 2.4.1 文本分类
  • 2.4.2 文本过滤与文本分类
  • 2.5 文本聚类的概念
  • 3 主要聚类算法的分析
  • 3.1 基于划分的方法
  • 3.1.1 算法的概述
  • 3.1.2 典型的代表算法
  • 3.2 基于层次的方法
  • 3.2.1 算法的概述
  • 3.2.2 典型的代表算法
  • 3.3 基于密度的方法
  • 3.3.1 算法的概述
  • 3.3.2 典型的代表算法
  • 3.4 基于网格的方法
  • 3.4.1 算法的概述
  • 3.4.2 典型的代表算法
  • 3.5 基于模型的方法
  • 3.5.1 算法的概述
  • 3.5.2 典型的代表算法
  • 3.6 粗糙集理论研究
  • 3.6.1 粗糙集的概念
  • 3.6.2 知识不确定性量测
  • 3.6.3 知识的粗糙熵
  • 4 粗糙集算法在K-Means模型中的应用
  • 4.1 传统聚类算法的缺点
  • 4.2 对于传统聚类算法的改进
  • 4.2.1 算法概述
  • 4.2.2 算法改进
  • 4.3 KRS模型
  • 5 系统仿真与实现
  • 5.1 文本特征选择技术
  • 5.2 粗糙集算法仿真
  • 5.2.1 在WEKA上实现粗糙集算法仿真
  • 5.2.2 实验的结论分析
  • 5.3 系统实现
  • 5.3.1 系统体系架构
  • 5.3.2 网络信息获取模块
  • 5.3.3 数据预处理模块
  • 5.3.4 文本聚类模块
  • 6 总结与展望
  • 6.1 工作总结
  • 6.2 未来的展望
  • 参考文献
  • 作者简历
  • 学位论文数据集
  • 相关论文文献

    标签:;  ;  ;  

    基于粗糙集的K-means研究
    下载Doc文档

    猜你喜欢