基于DK-Means算法的文本聚类的研究与实现

论文摘要

随着信息技术在各个领域的普及,各种应用每天产生的数据量呈指数级增长。如何有效处理这些数据,从中提取有用的知识,是迫切需要解决的问题。数据挖掘是为了满足人们对数据中所蕴涵的信息和知识的充分理解和有效应用而发展起来的一门新兴技术。聚类分析根据数据对象之间的相似度将数据集划分为几个类或者簇,是发现数据内部结构和知识的很好的方法。聚类分析是根据样本之间的某种距离在无监督条件下的聚簇过程,利用聚类方法可以把大量的文本划分成用户可以迅速理解的簇,从而使用户可以更快地把握大量文档中所包含的内容,加快分析速度并辅助决策。聚类分析已利用在各个领域,例如,模式识别,图象处理,信息检索等多个学科。根据不同需求,聚类数据集的类型也各不相同,例如,有序数型、标量型、文本型、混合型等数据,本文主要研究了对文本类型的数据进行聚类。本文对文本聚类中所涉及的文本降维方法和聚类算法进行了研究。首先,在文本预处理中,提出了结合词频的分词方法,提高了分词准确性的同时,为后边的文本模型的构建,文本降维等做好准备；其次,提出了基于文本相似的文本降维方法,该降维方法,通过计算文本与其他文本的相似性,计算特征词对文本类属性中的贡献度来提取与文本高度相关的词,起到了文本降维的效果,提高了文本聚类的效率和精确度；最后,提出了基于DK-Means的文本聚类算法,该方法与原有方法相比提高了聚类准确度和聚类速度。本文首先对属于数据挖掘领域的聚类分析技术进行了介绍,然后讲述了文本聚类的相关技术,包括文本的预处理、文本表示模型、降维技术和文本聚类算法（K-Means, BIRCH, CURE, OPTICS等）,再次研究了新的文本降维方法和聚类算法,对于特特征降维方法,提出了新的基于文本相似的文本降维方法。最后根据提出的算法设计和实现了文本聚类。经过测试,表明以上提出的方法,不仅在聚类的准确率和纯度方面有所提高,而且提高了文本聚类的速度。

论文目录

摘要

Abstract

第1章引言

1.1 研究背景与意义

1.2 国内外现状

1.3 研究内容

1.3.1 文本预处理

1.3.2 文本表示模型

1.3.3 数据降维

1.3.4 文本聚类

1.4 论文组织结构

第2章文本聚类相关技术研究

2.1 聚类分析的过程

2.1.1 聚类分析

2.1.2 聚类分析过程

2.2 数据模型抽取

2.2.1 文本特征

2.2.2 文本表示模型

2.3 降维技术

2.4 聚类算法

2.5 聚类分析方法的评估

第3章基于DK-means的文本聚类算法

3.1 文本聚类流程

3.2 文本预处理

3.2.1 标签、停用词处理

3.2.2 中文分词

3.2.3 特征项频率统计

3.3 文本模型的建立

3.4 基于文本相似的数据降维

3.4.1 数据的标准化处理

3.4.2 文本降维

3.5 DK-means聚类算法

3.5.1 文本的相似度计算

3.5.2 文本聚类算法

第4章结果测试和分析

4.1 数据集

4.2 文本降维

4.3 聚类算法实验方法和指标

4.3.1 聚类簇数目的度量

4.3.2 基于已知类分布的度量

4.4 聚类分析性能

4.4.1 实验项目

4.4.2 实验步骤

4.5 实验结果及分析

第5章结论

参考文献

致谢

基于DK-Means算法的文本聚类的研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢