基于一种半结构化数据模型的频繁模式挖掘研究
论文摘要
近年来,随着Web技术的不断发展,怎样从Web产生的海量数据中发现隐含的规律性内容,充分利用有用的数据成了现今研究的热点。而Internet上信息量的巨大性,信息内容结构的复杂性,以及没有特定的模型描述数据,使得处理这些信息具有很多困难。为了解决这个矛盾,半结构化数据模型的建立和Web数据挖掘成为解决这个问题的有效手段。再者,频繁模式挖掘是数据挖掘领域的一个基本问题,其方法被广泛应用于许多数据挖掘任务中。由于问题本身的基础性和内在复杂性,频繁模式挖掘方法成为许多研究者关注的课题。本文介绍了数据挖掘、Web数据挖掘、XML的相关概念和研究现状。分析了半结构化数据的特点以及目前主要的半结构数据模型。通过半结构化数据模型与XML数据的对比,发现它们之间有些相似性,但是XML的提出最初是作为文档标识语言,而不是作为一种数据模型。所以,根据XML数据内容自身的特性和频繁模式挖掘的的基本要求,给出了一种基于XML的树型对象模型ATE,目的是使用该数据模型来进行数据挖掘。在ATE半结构化数据模型的基础上,给出了BATEMINER算法来挖掘XML数据中的频繁模式。由于ATE模型在一定程度上简化了XML中的数据量,减少了存储空间,这也使算法在开发过程上减少了大量的步骤,因此降低了算法在挖掘过程中的开销,从而提高了算法的效率。
论文目录
摘要Abstract第1章 绪论1.1 引言1.2 Web数据挖掘简介1.2.1 Web挖掘原理1.2.2 Web挖掘的特点1.2.3 Web挖掘的分类1.2.4 Web挖掘的难点及解决方法1.3 相关技术1.3.1 XML相关概念1.3.2 数据挖掘技术1.4 本文研究内容1.5 本文组织第2章 半结构化数据模型与频繁模式2.1 半结构化数据2.1.1 半结构化数据概述2.1.2 半结构化数据的特点2.1.3 解决半结构化的数据源问题2.2 半结构化数据模型2.2.1 OEM模型2.2.2 标记有序树2.2.3 标记无序树2.2.4 数据模型扩展2.3 频繁模式挖掘和分析2.3.1 挖掘频繁项集的经典算法2.3.2 频繁项集挖掘存在的问题2.4 本章小结第3章 ATE数据模型3.1 XML与半结构化数据模型3.1.1 规范存储 XML中的属性3.1.2 XML中属性转换3.1.3 半结构化数据模型描述XML数据的缺陷3.2 ATE数据模型3.2.1 ATE模型定义3.2.2 ATE模型的一个实例3.3 本章小结第4章 频繁模式发现算法4.1 相关概念和术语4.2 基于ATE模型的频繁模式发现算法4.2.1 频繁子树连接扩展操作4.2.2 基于ATE模型的频繁模式发现算法 BATEMINER4.3 实验验证4.3.1 数据预处理4.3.2 实验结果分析4.4 本章小结结论参考文献攻读硕士学位期间发表的论文和取得的科研成果致谢
相关论文文献
本文来源: https://www.lw50.cn/article/bd912a337a96bf67853324f6.html