多标记传播聚类算法及其在Web日志挖掘中的应用

多标记传播聚类算法及其在Web日志挖掘中的应用

论文摘要

随着Internet的飞速发展,人们在享受网络带来的丰富信息和极大便利的同时,也遇到了“数据丰富知识贫乏”的问题。有效的解决途径就是将数据挖掘技术应用到WWW的挖掘中,即Web挖掘。Web挖掘包括Web内容挖掘、Web结构挖掘和Web使用挖掘。其中,Web日志挖掘作为Web使用挖掘中最有研究价值的一部分,得到了研究人员的极大关注。利用Web日志挖掘技术可以发现用户访问网站的浏览模式及网站页面之间的关系,继而进行用户聚类和页面聚类。数据预处理是数据挖掘前期的必要工作,是为数据挖掘算法提供有效输入和获取有价值的挖掘结果的前提条件。本文研究了传统的数据预处理过程,针对网站拓扑结构比较复杂时用户识别算法时间效率低的缺陷,对传统的用户识别算法进行了改进。根据多标记传播聚类算法的需要,构造了一种适用于该算法的数据预处理过程。本文在对聚类算法研究的基础之上,为了更好地体现用户的访问兴趣,以网站访问频度为参数,引入了加权关联矩阵的概念,并提出了一种基于加权关联矩阵聚类的挖掘算法——多标记传播聚类算法(MPCA),该算法是对标记传播思想的扩展,目的在于利用矩阵的稀疏特性来减少算法的执行时间。本文构造的预处理过程省略了复杂的会话识别和事务识别环节,可以更加真实地再现用户的访问情形。算法效率高,能够为挖掘算法提供有效的输入数据。与普通的矩阵聚类算法相比,多标记传播聚类算法克服了基于距离的算法在空间复杂性和时间复杂性方面的局限性,在处理Web日志构成的大稀疏矩阵方面具有一定的优势。经实际检验,表明采用多标记传播聚类算法的挖掘结果对于用户聚类和页面聚类是有效的、可行的。本文提出的多标记传播聚类算法虽然具有良好的可扩展性,但是还需要进一步改进,比如,设计出高效的基于Web日志的数据挖掘系统;将多标记传播聚类算法与遗传算法相结合,以获得更高的挖掘效率。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 Web 日志挖掘的研究现状
  • 1.2.1 国外研究现状
  • 1.2.2 国内研究现状
  • 1.3 本文工作和论文结构
  • 第二章 面向Web 的数据挖掘
  • 2.1 数据挖掘技术
  • 2.1.1 数据挖掘的现状
  • 2.1.2 数据挖掘的任务和方法
  • 2.2 Web 挖掘
  • 2.2.1 Web 挖掘与数据挖掘的关系
  • 2.2.2 Web 挖掘的分类
  • 2.2.3 Web 日志挖掘的过程
  • 2.2.4 Web 日志挖掘的应用
  • 2.3 小结
  • 第三章 Web 日志挖掘的数据预处理技术
  • 3.1 数据预处理技术
  • 3.2 Web 日志挖掘的数据预处理过程
  • 3.3 多标记传播聚类算法的数据预处理过程
  • 3.3.1 数据清洗
  • 3.3.2 改进的用户识别算法
  • 3.3.3 数据变换
  • 3.3.4 数据归约
  • 3.3.5 实验结果
  • 3.4 小结
  • 第四章 聚类分析及加权关联矩阵
  • 4.1 聚类分析概述
  • 4.1.1 聚类分析的分类
  • 4.1.2 聚类分析的研究方向
  • 4.1.3 聚类分析的应用领域
  • 4.2 主要聚类方法
  • 4.3 加权关联矩阵
  • 4.3.1 已有算法分析
  • 4.3.2 加权关联矩阵的定义
  • 4.3.3 加权关联矩阵的构造
  • 4.3.4 加权关联矩阵的存储
  • 4.4 小结
  • 第五章 多标记传播聚类算法
  • 5.1 多标记传播聚类算法
  • 5.1.1 算法思路
  • 5.1.2 算法描述
  • 5.1.3 算法处理过程示例
  • 5.2 算法性能分析与实验
  • 5.2.1 算法性能分析
  • 5.2.2 实验结果及分析
  • 5.3 小结
  • 第六章 结束语
  • 致谢
  • 参考文献
  • 研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    多标记传播聚类算法及其在Web日志挖掘中的应用
    下载Doc文档

    猜你喜欢