Print

基于一种半结构化数据模型的频繁模式挖掘研究

论文摘要

近年来,随着Web技术的不断发展,怎样从Web产生的海量数据中发现隐含的规律性内容,充分利用有用的数据成了现今研究的热点。而Internet上信息量的巨大性,信息内容结构的复杂性,以及没有特定的模型描述数据,使得处理这些信息具有很多困难。为了解决这个矛盾,半结构化数据模型的建立和Web数据挖掘成为解决这个问题的有效手段。再者,频繁模式挖掘是数据挖掘领域的一个基本问题,其方法被广泛应用于许多数据挖掘任务中。由于问题本身的基础性和内在复杂性,频繁模式挖掘方法成为许多研究者关注的课题。本文介绍了数据挖掘、Web数据挖掘、XML的相关概念和研究现状。分析了半结构化数据的特点以及目前主要的半结构数据模型。通过半结构化数据模型与XML数据的对比,发现它们之间有些相似性,但是XML的提出最初是作为文档标识语言,而不是作为一种数据模型。所以,根据XML数据内容自身的特性和频繁模式挖掘的的基本要求,给出了一种基于XML的树型对象模型ATE,目的是使用该数据模型来进行数据挖掘。在ATE半结构化数据模型的基础上,给出了BATEMINER算法来挖掘XML数据中的频繁模式。由于ATE模型在一定程度上简化了XML中的数据量,减少了存储空间,这也使算法在开发过程上减少了大量的步骤,因此降低了算法在挖掘过程中的开销,从而提高了算法的效率。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 引言
  • 1.2 Web数据挖掘简介
  • 1.2.1 Web挖掘原理
  • 1.2.2 Web挖掘的特点
  • 1.2.3 Web挖掘的分类
  • 1.2.4 Web挖掘的难点及解决方法
  • 1.3 相关技术
  • 1.3.1 XML相关概念
  • 1.3.2 数据挖掘技术
  • 1.4 本文研究内容
  • 1.5 本文组织
  • 第2章 半结构化数据模型与频繁模式
  • 2.1 半结构化数据
  • 2.1.1 半结构化数据概述
  • 2.1.2 半结构化数据的特点
  • 2.1.3 解决半结构化的数据源问题
  • 2.2 半结构化数据模型
  • 2.2.1 OEM模型
  • 2.2.2 标记有序树
  • 2.2.3 标记无序树
  • 2.2.4 数据模型扩展
  • 2.3 频繁模式挖掘和分析
  • 2.3.1 挖掘频繁项集的经典算法
  • 2.3.2 频繁项集挖掘存在的问题
  • 2.4 本章小结
  • 第3章 ATE数据模型
  • 3.1 XML与半结构化数据模型
  • 3.1.1 规范存储 XML中的属性
  • 3.1.2 XML中属性转换
  • 3.1.3 半结构化数据模型描述XML数据的缺陷
  • 3.2 ATE数据模型
  • 3.2.1 ATE模型定义
  • 3.2.2 ATE模型的一个实例
  • 3.3 本章小结
  • 第4章 频繁模式发现算法
  • 4.1 相关概念和术语
  • 4.2 基于ATE模型的频繁模式发现算法
  • 4.2.1 频繁子树连接扩展操作
  • 4.2.2 基于ATE模型的频繁模式发现算法 BATEMINER
  • 4.3 实验验证
  • 4.3.1 数据预处理
  • 4.3.2 实验结果分析
  • 4.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/bd912a337a96bf67853324f6.html