论文摘要
数据挖掘技术从大量的数据中发现隐含的知识和规律。它既是一种知识的获取,又是一种数据处理过程。从工程的角度讲,数据挖掘是一个需要反复多次对数据进行处理的过程。数据挖掘获取的信息可以广泛的应用到商务管理、生产控制、市场分析、工程设计等各个领域。粗糙集在数据挖掘中有着广泛的应用。本文简述了粗糙集的基本理论、深入研究了融合粗糙度和知识粗糙熵的基本概念。通过研究,得出了粗糙度、知识的粗糙熵、粗糙集的粗糙熵随着知识更细的划分而单调下降的结论。本文将粗糙集的基本理论知识与K-means算法相结合,提出了一种混合的属性约简算法:KRS算法。KRS算法是基于属性频率的约简算法,是一种新的区分矩阵约简算法。本文对传统的聚类算法进行了改进,克服了传统算法通过文本距离来确定文本相似度,而忽略文本的相似性所造成的聚类过程不精确的缺点。本文的研究工作主要体现在以下几个方面:第一、利用常用的特征选择方法降低了文本维数,提出了一种新的粗糙集约简算法对文本属性进行前向选择,产生几个约简,在利用粗糙集约简算法去掉冗余属性;第二、使用K-means聚类算法进行文本的聚类,在每一次聚类的结果中用粗糙集进行再次聚类。通过实验,发现聚类的结果与实际理想情况下的分类的结果越来越接近。在这个基础上,将基于粗集的特征选择方法与文本聚类结合起来,进而得到高效的结果。整个过程分成两段:首先将多约简算法作为前端预处理工具,进行文本特征选择,然后用K-means方法对约简后的属性进行分类过滤。降低了属性维数,减少了计算量,同时提高了分类速度;第三、提出了一种基于属性重要度的粗糙集和相关过滤器结合的、针对主题特殊文本过滤的新方法。通过实验结果可以看出,未经粗糙集约简的文本属性集和经过快速约简的文本属性集相比较,当约简个数m取值增加后,所选择的属性个数大大减少,精度也随之提高。本文基于以上的研究结果,利用WEKA数据挖掘平台与知识分析平台进行二次开发,对海量的数据进行分析,结果证明了本文算法的优越性。同时,在MyEclipse上实现了对k-means模块改进处理,通过验证,证实了程序的可行性。