本文从XML与Web数据挖掘两项技术相结合入手进行研究,提出了一个基于XML的Web数据挖掘系统模型。本文讨论了半结构化数据模型的几种类型,并证明了XML是可以用半结构化数据模型来表示,并重点研究了针对半结构化数据的关联规则挖掘问题。传统的关联规则挖掘问题可以分解为两个子问题:频繁相集挖掘以及由频繁相集产生强关联规则。而频繁相集挖掘是基于结构化数据的,无法直接应用到半结构化的数据上。本文通过对半结构化数据的数据模型进行挖掘,也就是频繁子树的挖掘,实现了关联规则的知识发现。在频繁子树的挖掘过程中,本文对经典的TreeMinet算法进行了改进,实验结果表明改进后的算法由于进行了划分,减少了递归次数,从而减少了运行时间。
本文来源: https://www.lw50.cn/article/4d0d071ba7f8e537c874e955.html