基于XML的WEB数据挖掘研究

论文摘要

本文从XML与Web数据挖掘两项技术相结合入手进行研究,提出了一个基于XML的Web数据挖掘系统模型。本文讨论了半结构化数据模型的几种类型,并证明了XML是可以用半结构化数据模型来表示,并重点研究了针对半结构化数据的关联规则挖掘问题。传统的关联规则挖掘问题可以分解为两个子问题:频繁相集挖掘以及由频繁相集产生强关联规则。而频繁相集挖掘是基于结构化数据的,无法直接应用到半结构化的数据上。本文通过对半结构化数据的数据模型进行挖掘,也就是频繁子树的挖掘,实现了关联规则的知识发现。在频繁子树的挖掘过程中,本文对经典的TreeMinet算法进行了改进,实验结果表明改进后的算法由于进行了划分,减少了递归次数,从而减少了运行时间。

论文目录

摘要

Abstract

第1章绪论

1.1 问题的提出

1.2 XML和数据挖掘相结合的研究发展状况

1.3 本文研究内容及组织结构

第二章 XML及Web数据挖掘技术概述

2.1 XML的概述

2.2 数据挖掘概述

2.3 Web数据挖掘概述

2.4 基于XML的Web数据挖掘技术

小结

第三章半结构化数据频繁模式

3.1 半结构化数据模型

3.2 XML数据的半结构化模型表示

3.3 半结构化数据中的频繁模式发现研究现状

小结

第四章半结构化数据的关联规则挖掘

4.1 关联规则概述

4.2 频繁子树挖掘

4.3 关联规则提取

小结

第五章总结

5.1 本文总结

5.2 工作展望

参考文献

致谢

基于XML的WEB数据挖掘研究

论文摘要

论文目录

相关论文文献