论文摘要
本文从XML与Web数据挖掘两项技术相结合入手进行研究,提出了一个基于XML的Web数据挖掘系统模型。本文讨论了半结构化数据模型的几种类型,并证明了XML是可以用半结构化数据模型来表示,并重点研究了针对半结构化数据的关联规则挖掘问题。传统的关联规则挖掘问题可以分解为两个子问题:频繁相集挖掘以及由频繁相集产生强关联规则。而频繁相集挖掘是基于结构化数据的,无法直接应用到半结构化的数据上。本文通过对半结构化数据的数据模型进行挖掘,也就是频繁子树的挖掘,实现了关联规则的知识发现。在频繁子树的挖掘过程中,本文对经典的TreeMinet算法进行了改进,实验结果表明改进后的算法由于进行了划分,减少了递归次数,从而减少了运行时间。
论文目录
摘要Abstract目录第1章 绪论1.1 问题的提出1.2 XML和数据挖掘相结合的研究发展状况1.3 本文研究内容及组织结构第二章 XML及Web数据挖掘技术概述2.1 XML的概述2.2 数据挖掘概述2.3 Web数据挖掘概述2.4 基于XML的Web数据挖掘技术小结第三章 半结构化数据频繁模式3.1 半结构化数据模型3.2 XML数据的半结构化模型表示3.3 半结构化数据中的频繁模式发现研究现状小结第四章 半结构化数据的关联规则挖掘4.1 关联规则概述4.2 频繁子树挖掘4.3 关联规则提取小结第五章 总结5.1 本文总结5.2 工作展望参考文献致谢
相关论文文献
标签:数据挖掘论文; 关联规则论文; 频繁子树论文;