论文摘要
XML具有简单性、结构化、可扩展性、互操作性、开放性、通用性、灵活性等特点,因而在数据交换、数据集成、数据发布、数据存储、数据管理、知识管理、信息检索等诸多领域获得广泛应用。XML数据的快速发展迫切需要与之相适应的、能有效处理XML数据的数据挖掘技术。然而传统数据挖掘技术主要处理关系数据库或数据仓库中的结构化数据,无法解决具有复杂层次结构的XML数据挖掘问题。目前关于XML数据频繁模式挖掘技术的研究尚处于起步阶段,虽然研究人员已经提出了一些面向XML数据的频繁模式挖掘算法,但由于XML数据具有结构变化、不规则、没有完全固定模式等特点,且XML数据中可挖掘结构繁多,因而至今缺乏一个统一的、抽象的模型去描述XML数据的频繁模式挖掘过程。本文在研究XML数据结构模型特征、表示方法的基础上,提出了一个统一、抽象的XML频繁模式挖掘框架系统。并在此框架基础上分别就XML数据的频繁标签序列挖掘技术、频繁查询子树离线挖掘技术、频繁查询子树在线挖掘技术、文档历史版本变化结构挖掘技术进行了讨论和研究:面向XML文档聚类的频繁XML标签序列挖掘技术研究采用分而治之的思想,提出了基于概念格的XML频繁标签序列挖掘算法。算法将XML标签数据按照共同前缀序列分成不相交等价类:通过在每个等价类中分别实施挖掘过程获取频繁标签序列。在标签序列挖掘技术基础上,研究了基于频繁标签序列的XML文档聚类技术。该技术采用频繁标签序列表示文档特征,通过考虑标签序列包含关系,并引入标签路径长度、标签路径在XML文档中连续状况等特性,提高XML文档相似性估量准确度及聚类质量。面向XML查询缓存的频繁XML查询子树离线挖掘技术研究分析XML查询结构的特点,提出了基于全局树视图的、自底向上的频繁查询子树挖掘算法BUXMiner和最大频繁查询子树挖掘算法BUMXMiner。通过构建全局树视图,使得候选子树的频度计算可直接从全局树视图中获得,而不再依赖于扫描XML文档数据集。借鉴频繁查询子树挖掘算法,给出了基于频繁查询子树的XML查询框架系统。XML查询系统中,为处理相似但不相同的XML查询树,介绍了四种XML查询树关系并给出了相似查询重写过程。大量实验表明BUXMiner算法在性能上优于原有查询子树挖掘算法;相比于传统缓存技术LRU、MRU,应用频繁查询的缓存技术可获得更好的XML查询效率。(?)基于滑动窗口的频繁XML查询子树在线挖掘技术研究通过引入滑动窗口模型,提出了面向XML查询数据流的频繁查询子树在线挖掘算法。算法以全局Trie树为数据缓存结构管理和维护缓存池的数据流,采用自下而上、基于前缀等价类的遍历方式快速产生所有带根查询子树和标准查询子树。实验结果表明该算法具有挖掘速度快、内存消耗稳定等特点,可以有效、平稳地处理XML查询数据流。(?)基于双位图B-DOM结构的XML文档历史版本变化结构挖掘技术研究在研究XML动态数据挖掘问题及XML版本变化结构挖掘框架的基础上,提出了动态变化结构挖掘算法DXSM,用于有效提取频繁变化结构及基于此的频繁插入变化结构和频繁删除变化结构。通过构建存储、管理数据动态变化信息的双位图结构B-DOM有效地解决了各种变化结构提取问题。实验结果表明该变化结构挖掘算法能快速、有效地提取XML版本序列中的变化结构信息。
论文目录
摘要ABSTRACT第1章 绪论1.1 引言1.2 研究思路与内容1.3 论文组织第2章 相关研究综述2.1 引言2.2 为什么需要XML数据挖掘2.3 XML频繁模式挖掘技术及其应用2.3.1 频繁标签序列挖掘技术2.3.2 频繁子树离线挖掘技术2.3.3 频繁子树在线挖掘技术2.3.4 频繁变化结构挖掘技术2.4 XML频繁模式相关研究项目2.5 现有问题和不足2.6 本章总结第3章 XML数据频繁模式挖掘框架3.1 引言3.2 XML频繁模式挖掘框架研究的必要性、意义和研究方法3.3 XML数据模型3.3.1 树模型3.3.2 XML频繁模式3.4 XML频繁模式挖掘框架3.5 本章总结第4章 面向XML文档聚类的频繁XML标签序列挖掘4.1 引言4.2 序列挖掘算法4.2.1 基于Apriori的序列挖掘算法4.2.2 基于WAP-树的序列挖掘算法4.2.3 基于等价类的序列挖掘算法4.3 频繁标签序列挖掘算法XSM4.3.1 XML数据转换4.3.2 构建垂直数据库4.3.3 基于概念格理论的序列枚举4.3.4 连接等价类产生频繁序列4.3.5 完整标签序列挖掘算法4.4 算法应用-XML文档聚类4.4.1 XML文档聚类算法FTSC框架4.4.2 文档约简4.4.3 文档相似度评估模型4.4.4 XML文档聚类算法FTSC4.5 实验结果及聚类效果评估4.5.1 频繁标签序列挖掘算法XSM实验结果4.5.2 XML文档聚类实验结果4.6 本章总结第5章 面向XML缓存的频繁XML查询子树离线挖掘5.1 引言5.2 基本概念5.2.1 频繁查询子树5.2.2 全局树视图(GTG)5.2.3 查询子树挖掘问题5.3 频繁带根查询子树挖掘算法BUXMINER5.3.1 算法总体结构5.3.2 全局树视图构建5.3.3 频繁带根查询子树产生5.3.4 等价类合并5.3.5 算法效率分析5.4 最大频繁带根查询子树挖掘算法BUMXMINER5.4.1 算法总体结构5.4.2 最大频繁带根查询子树产生5.4.3 算法效率分析5.5 算法应用-XML查询缓存5.5.1 XML查询缓存框架5.5.2 XML查询重写5.5.3 XML缓存替换5.6 实验结果及性能评估5.6.1 数据集5.6.2 BUXMiner算法实验结果5.6.3 BUMXMiner算法实验结果5.6.4 XML缓存实验结果5.7 本章总结第6章 基于滑动窗口的频繁XML查询子树在线挖掘6.1 引言6.2 查询子树在线挖掘问题6.3 查询子树在线挖掘框架6.4 全局查询池(GRP)6.4.1 全局Trie树(GTrie)6.4.2 面向XML查询数据流的滑动窗口模型6.4.3 查询子树产生6.5 查询子树在线挖掘算法6.6 算法应用-在线替换XML查询缓存和WEB用户访问模式挖掘6.6.1 在线替换XML查询缓存6.6.2 Web用户访问模式挖掘6.7 实验结果及性能评估6.7.1 数据集6.7.2 在线子树挖掘算法实验结果6.7.3 XML查询缓存和用户Web访问模式挖掘实验结果6.8 本章总结第7章 基于双位图结构的XML版本变化结构挖掘7.1 引言7.2 XML变化结构挖掘框架7.3 XML变化结构挖掘问题7.3.1 XML变化结构度量准则7.3.2 XML频繁变化结构挖掘问题7.4 XML变化结构挖掘算法7.4.1 基于DOM的双位图结构B-DOM7.4.2 频繁变化结构挖掘算法7.4.3 算法效率分析7.5 算法应用-动态关联结构发现7.6 实验结果及性能评估7.6.1 数据集及参数设置7.6.2 变化结构挖掘算法实验结果7.7 本章总结第8章 结论和展望8.1 论文主要工作总结8.1.1 论文主要工作概述8.1.2 论文创新点8.2 缺点与不足8.3 未来工作展望参考文献致谢作者简历
相关论文文献
标签:数据挖掘论文; 频繁模式论文; 标签序列挖掘论文; 查询子树挖掘论文; 变化结构挖掘论文; 聚类论文; 查询缓存论文;