Web文本聚类技术及聚类结果可视化研究

Web文本聚类技术及聚类结果可视化研究

论文摘要

随着Internet和计算机网络技术的飞速发展,Web已经成为一个海量的、动态的、异构的信息资源库。人们急需从大量的Web数据资源中快速、有效地获取感兴趣的知识和模式。而Web文本聚类是Web数据挖掘的核心基础研究课题之一。聚类分析具有压缩搜索空间、加快检索速度等多方面的作用,它能帮助知识工作者高效而准确的发现与某个文本最相似的文本;提高信息检索系统的返回率(Recall)和精确度(Precision);能提高搜索引擎的个性化推荐度。因为在Web网络上最常见的数据格式就是以HTML标记语言表示的Web文本,所以对Web文本进行聚类分析是一项非常重要并且很有价值的工作。本文主要研究Web文本聚类及聚类结果的可视化技术。本文首先介绍了文本聚类的概念和Web数据挖掘分类,以及常用的文本聚类方法,以及相关数据预处理、簇评估和聚簇可视化等相关技术。其次,系统阐述了Web文本聚类系统的处理流程,以及涉及到的关键技术,分析了这些技术的研究现状和存在的问题。然后,分析了K-Means基本算法思想基础上,提出一种新的针对Web文本聚类的特征权重调整公式,该权重优化公式综合考虑了HTML文本标签信息和Web文本位置语义,同时,增加了信息增益权重计算因子,提高特征词的类区分能力。本文同时在总结和分析现有数据可视化基础上,对传统的平行可视化方法和2D散点图进行改进,实现了基于平行坐标数据动态可视化聚类分析和更直观的维嵌套数据表示方法。增强了传统平行坐标数据可视化方法的交互性、实用性和信息反馈的即时性。最后,在以上研究基础上,设计并实现了一个并行K-means聚类算法和Web文本聚类原型系统,可进行并行K-means算法的划分聚类和基于层次的组平均聚类。利用几组Web文本数据集对基本的K-means算法和改进的算法以及基于层次的组平均算法进行试验和比较,验证改进算法的有效性。实验结果表明:并行K-means算法的聚类结果与串行算法相同,但执行效率得到了很大的提高。

论文目录

  • 摘要
  • ABSTRACT
  • 绪论
  • 一 课题研究的背景
  • 二 课题研究的理论与实际意义
  • 三 课题研究现状
  • 四 Web 数据挖掘面临的问题
  • 五 论文的主要研究内容
  • 第一章 Web 数据挖掘概述
  • 1.1 Web 数据挖掘的定义
  • 1.2 Web 数据挖掘分类
  • 1.2.1 Web 使用模式挖掘
  • 1.2.2 Web 结构挖掘
  • 1.2.3 Web 内容挖掘
  • 1.3 Web 数据挖掘和Web 信息检索
  • 1.3.1 Web 信息检索的定义
  • 1.3.2 两者的关系
  • 1.4 常用Web 文本聚类方法
  • 1.4.1 基于划分的聚类方法
  • 1.4.2 基于层次的聚类方法
  • 1.4.3 基于空间索引的聚类方法
  • 1.4.4 其他聚类方法
  • 1.5 Web 文本聚类结果评估及选型
  • 1.5.1 聚簇评估
  • 1.5.2 聚类算法的选择
  • 本章小结
  • 第二章 Web 文本聚类关键技术
  • 2.1 Web 文本数据格式分析
  • 2.2 Web 文本表示方法
  • 2.3 Web 文本特征提取
  • 2.3.1 独立评估方法
  • 2.3.2 综合评估方法
  • 2.3.3 特征抽取方法的特点
  • 2.4 相似性测度
  • 2.5 聚类结果可视化技术研究
  • 2.5.1 数据可视化技术的基本概念
  • 2.5.2 主要的数据可视化技术
  • 本章小结
  • 第三章 基于改进的 K-Means 算法的 Web 文本聚类研究
  • 3.1 划分聚类算法介绍
  • 3.1.1 划分算法概述
  • 3.1.2 K-means 算法基本思想
  • 3.1.3 K-means 算法面临的主要问题
  • 3.2 改善权重计算方案
  • 3.2.1 传统的权重调整公式分析
  • 3.2.2 新的权重调整方案
  • 3.3 聚类结果的数据可视化研究与改进
  • 3.3.1 基于树图的聚类可视化
  • 3.3.2 基于几何的散点图可视化
  • 3.3.3 动态交互聚类数据可视化技术
  • 3.4 并行 K-means 算法
  • 3.4.1 并行聚类现状和策略
  • 3.4.2 并行K-means 算法的实现
  • 3.4.3 并行算法分析和实验验证
  • 本章小结
  • 第四章 Web 文本聚类系统设计与试验分析
  • 4.1 系统总体结构和功能模块
  • 4.1.1 Web 文本预处理模块
  • 4.1.2 聚类分析模块
  • 4.1.3 前台用户交互模块
  • 4.2 Web 文本聚类系统应用分析
  • 4.2.1 Web 文本数据集及预处理
  • 4.2.2 聚类结果演示
  • 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].机器学习方法在文本聚类中的应用[J]. 电子世界 2018(22)
    • [2].基于特征空间的文本聚类[J]. 计算机技术与发展 2017(09)
    • [3].基于深度特征语义学习模型的垃圾短信文本聚类研究[J]. 现代计算机(专业版) 2018(07)
    • [4].基于语义相似度的文本聚类研究[J]. 现代图书情报技术 2016(12)
    • [5].基于社交网络中非平衡文本聚类方法的研究[J]. 科技创新导报 2016(13)
    • [6].结合语义与统计的特征降维短文本聚类[J]. 计算机工程 2012(22)
    • [7].文本聚类研究[J]. 电脑知识与技术 2009(20)
    • [8].一种结合主题模型与段落向量的短文本聚类方法[J]. 华东理工大学学报(自然科学版) 2020(03)
    • [9].基于文本聚类与情感分析的群租房微博舆情量化研究[J]. 图书情报研究 2019(01)
    • [10].一种基于t-分布随机近邻嵌入的文本聚类方法[J]. 南京大学学报(自然科学) 2019(02)
    • [11].多特征融合文本聚类的新闻话题发现模型[J]. 国防科技大学学报 2017(03)
    • [12].基于频繁项集的海量短文本聚类与主题抽取[J]. 计算机研究与发展 2015(09)
    • [13].面向路线图编制的模糊均值文本聚类挖掘方法研究[J]. 河北工业大学学报 2011(03)
    • [14].基于文本聚类的煤矿安全隐患类型挖掘研究[J]. 中国安全科学学报 2019(03)
    • [15].基于竞争学习的大规模微博文本聚类[J]. 江苏科技大学学报(自然科学版) 2017(06)
    • [16].基于特征翻译和潜在语义标引的跨语言文本聚类实验分析[J]. 现代图书情报技术 2014(01)
    • [17].一种改进的文本聚类方法[J]. 自动化技术与应用 2008(09)
    • [18].动态索引树文本聚类方法中节点阀值的优化[J]. 电脑开发与应用 2010(09)
    • [19].基于卫星装配工艺的短文本聚类研究[J]. 软件工程 2020(04)
    • [20].可增量的用户短文本聚类方法研究[J]. 计算机技术与发展 2017(11)
    • [21].基于信息损失度的文本聚类研究[J]. 内蒙古师范大学学报(自然科学汉文版) 2017(05)
    • [22].基于余弦距离选取初始簇中心的文本聚类研究[J]. 计算机工程与应用 2018(10)
    • [23].具有词判别力学习能力的短文本聚类概率模型研究[J]. 计算机应用研究 2018(12)
    • [24].面向在线社交网络用户生成内容的饮食话题发现研究[J]. 现代图书情报技术 2016(10)
    • [25].基于信息融合的网页文本聚类距离选择方法[J]. 广州大学学报(自然科学版) 2016(01)
    • [26].深度词汇网络学习的文本聚类研究[J]. 北京化工大学学报(自然科学版) 2015(02)
    • [27].一种基于本体的文本聚类方法[J]. 吉林大学学报(理学版) 2010(02)
    • [28].有标记的文本聚类方法研究[J]. 舰船电子工程 2009(04)
    • [29].基于关键词的学术文本聚类集成研究[J]. 情报学报 2019(08)
    • [30].敏感话题发现中的增量型文本聚类模型[J]. 信息网络安全 2015(09)

    标签:;  ;  ;  ;  

    Web文本聚类技术及聚类结果可视化研究
    下载Doc文档

    猜你喜欢