Web文本聚类技术及聚类结果可视化研究

论文摘要

随着Internet和计算机网络技术的飞速发展,Web已经成为一个海量的、动态的、异构的信息资源库。人们急需从大量的Web数据资源中快速、有效地获取感兴趣的知识和模式。而Web文本聚类是Web数据挖掘的核心基础研究课题之一。聚类分析具有压缩搜索空间、加快检索速度等多方面的作用,它能帮助知识工作者高效而准确的发现与某个文本最相似的文本;提高信息检索系统的返回率（Recall）和精确度（Precision）;能提高搜索引擎的个性化推荐度。因为在Web网络上最常见的数据格式就是以HTML标记语言表示的Web文本,所以对Web文本进行聚类分析是一项非常重要并且很有价值的工作。本文主要研究Web文本聚类及聚类结果的可视化技术。本文首先介绍了文本聚类的概念和Web数据挖掘分类,以及常用的文本聚类方法,以及相关数据预处理、簇评估和聚簇可视化等相关技术。其次,系统阐述了Web文本聚类系统的处理流程,以及涉及到的关键技术,分析了这些技术的研究现状和存在的问题。然后,分析了K-Means基本算法思想基础上,提出一种新的针对Web文本聚类的特征权重调整公式,该权重优化公式综合考虑了HTML文本标签信息和Web文本位置语义,同时,增加了信息增益权重计算因子,提高特征词的类区分能力。本文同时在总结和分析现有数据可视化基础上,对传统的平行可视化方法和2D散点图进行改进,实现了基于平行坐标数据动态可视化聚类分析和更直观的维嵌套数据表示方法。增强了传统平行坐标数据可视化方法的交互性、实用性和信息反馈的即时性。最后,在以上研究基础上,设计并实现了一个并行K-means聚类算法和Web文本聚类原型系统,可进行并行K-means算法的划分聚类和基于层次的组平均聚类。利用几组Web文本数据集对基本的K-means算法和改进的算法以及基于层次的组平均算法进行试验和比较,验证改进算法的有效性。实验结果表明:并行K-means算法的聚类结果与串行算法相同,但执行效率得到了很大的提高。

论文目录

摘要

ABSTRACT

绪论

一课题研究的背景

二课题研究的理论与实际意义

三课题研究现状

四 Web 数据挖掘面临的问题

五论文的主要研究内容

第一章 Web 数据挖掘概述

1.1 Web 数据挖掘的定义

1.2 Web 数据挖掘分类

1.2.1 Web 使用模式挖掘

1.2.2 Web 结构挖掘

1.2.3 Web 内容挖掘

1.3 Web 数据挖掘和Web 信息检索

1.3.1 Web 信息检索的定义

1.3.2 两者的关系

1.4 常用Web 文本聚类方法

1.4.1 基于划分的聚类方法

1.4.2 基于层次的聚类方法

1.4.3 基于空间索引的聚类方法

1.4.4 其他聚类方法

1.5 Web 文本聚类结果评估及选型

1.5.1 聚簇评估

1.5.2 聚类算法的选择

本章小结

第二章 Web 文本聚类关键技术

2.1 Web 文本数据格式分析

2.2 Web 文本表示方法

2.3 Web 文本特征提取

2.3.1 独立评估方法

2.3.2 综合评估方法

2.3.3 特征抽取方法的特点

2.4 相似性测度

2.5 聚类结果可视化技术研究

2.5.1 数据可视化技术的基本概念

2.5.2 主要的数据可视化技术

本章小结

第三章基于改进的 K-Means 算法的 Web 文本聚类研究

3.1 划分聚类算法介绍

3.1.1 划分算法概述

3.1.2 K-means 算法基本思想

3.1.3 K-means 算法面临的主要问题

3.2 改善权重计算方案

3.2.1 传统的权重调整公式分析

3.2.2 新的权重调整方案

3.3 聚类结果的数据可视化研究与改进

3.3.1 基于树图的聚类可视化

3.3.2 基于几何的散点图可视化

3.3.3 动态交互聚类数据可视化技术

3.4 并行 K-means 算法

3.4.1 并行聚类现状和策略

3.4.2 并行K-means 算法的实现

3.4.3 并行算法分析和实验验证

本章小结

第四章 Web 文本聚类系统设计与试验分析

4.1 系统总体结构和功能模块

4.1.1 Web 文本预处理模块

4.1.2 聚类分析模块

4.1.3 前台用户交互模块

4.2 Web 文本聚类系统应用分析

4.2.1 Web 文本数据集及预处理

4.2.2 聚类结果演示

本章小结

结论

参考文献

攻读硕士学位期间发表的学术论文

致谢

Web文本聚类技术及聚类结果可视化研究

论文摘要

论文目录

相关论文文献

猜你喜欢