
论文摘要
序列模式挖掘是指从序列数据库中发现相对于时间或者其它顺序的高频率序列。其最初动机是想通过在带有交易时间属性的交易数据库中发现频繁项目序列以发现一个时间段内的客户购买行为规律。近年来序列模式挖掘已经成为数据挖掘的一个重要方向,其应用范围已不局限于交易数据库,在DNA分析等尖端科学研究领域、Web访问等新型应用数据源等众多方面都得到了针对性研究。文中结合R.Agrawal和R.Srikant提出的序列模式挖掘的有关定义和R.Wille提出的概念格理论,提出了频繁概念的定义;根据序列模式并行挖掘的需要提出了搜索空间划分理论,其中包括搜索空间、子搜索空间、等价子搜索空间和最大子搜索空间的定义。序列模式挖掘的数据有如下特点:数据量大,数据分布存储。已有的大部分序列模式挖掘算法没有综合考虑到数据的上述特点。本文针对序列模式挖掘数据的这些特点,结合并行理论,提出了一个分布式并行算法SPP(Sequential Pattern Parallel)。本算法遵循模式缩减的原则,利用分治策略实现并行操作,在每台处理器上运用搜索空间划分理论和频繁概念构造频繁项集,运用图深度优先搜索方法构造频繁序列。算法只需扫描数据库两遍,不需要生成候选序列,大大减少了数据库访问时间,提高了序列模式挖掘的效率。不过本文采用是静态负载平衡,还有待改进。基于自己设计的随机数据生成程序和不同的消息结构,本文在具体的并行环境中模拟了算法SPP,并在单机中实现了AprioriAll算法。实验证明,相比于AprioriAll,SPP算法具有良好的加速比和效率。
论文目录
摘要Abstract第1章 绪论1.1 选题背景与意义1.2 序列模式挖掘并行算法的研究现状1.2.1 基于Apriori-like 串行算法的并行算法1.2.2 基于SPADE 串行算法的并行算法1.2.3 基于树投影的并行算法1.2.4 本节小结1.3 论文主要内容第2章 序列模式挖掘2.1 序列模式的基本概念2.2 研究现状2.2.1 序列模式的扩展2.2.2 序列模式挖掘算法2.2.3 实际应用2.3 经典算法2.3.1 AprioriAll 算法2.3.2 PrefixSpan 算法2.4 本章小结第3章 并行理论3.1 并行计算机体系结构3.1.1 单指令流多数据流3.1.2 多指令流多数据流3.2 并行计算模型3.2.1 PRAM 模型3.2.2 BSP 模型3.2.3 LogP 模型3.3 并行算法编程模型3.3.1 数据并行模型3.3.2 消息传递模型3.3.3 两种模型比较3.4 并行编程环境3.4.1 PVM3.4.2 MPI3.4.3 MPI 与PVM 比较3.5 并行算法基础3.5.1 基本概念3.5.2 并行算法的性能3.5.3 并行算法设计原则3.5.4 并行算法一般设计方法3.6 本章小结第4章 序列模式并行挖掘算法SPP4.1 算法概述4.2 算法理论4.2.1 频繁概念4.2.2 减少模式数量的观点4.2.3 搜索空间划分4.3 算法详解4.3.1 生成和分配频繁1-项集4.3.2 构造频繁项集4.3.3 生成局部频繁项集关联图4.3.4 生成频繁序列4.4 复杂性分析4.5 本章小结第5章 实验与分析5.1 并行环境5.2 实验数据5.3 采用的消息结构5.4 MPI 函数5.5 实验与性能分析5.6 本章小结结论参考文献攻读学位期间发表的学术论文致谢
相关论文文献
标签:序列模式论文; 并行论文; 概念格论文; 搜索空间论文;