加权频繁模式挖掘算法研究

加权频繁模式挖掘算法研究

论文摘要

随着信息技术尤其是网络技术的快速发展,人们收集、存储和传输数据的能力不断提高,各类应用领域的数据量大量产生,数据挖掘日益成为数据分析和决策支持的一种重要工具。频繁模式挖掘是数据挖掘领域内的一个基本问题,它被广泛应用到多种领域和挖掘任务中,例如Web挖掘、零售业数据挖掘、科学研究、关联规则挖掘、序列模式挖掘、路径分析等。在传统的频繁模式挖掘方法中,事务数据库(Transaction Database,TDB)中的每个项都被看成是同等重要的,而在实际应用中,每个项通常具有不同的重要性。为解决这个问题,本文研究了加权频繁模式挖掘(Weighted Frequent Pattern Mining,WFPM)问题,其主要特征就是在挖掘过程中通过给TDB中各个项目赋予不同的权值来体现它们的重要性不同。经过十几年的研究,已经奠定了较成熟的频繁模式挖掘算法理论基础,但对于加权频繁模式挖掘算法及其应用的研究工作尚处在初始阶段,值得深入研究和探讨。在加权事例中,加权支持度度量不再满足向下闭合特性(亦称反单调性(Antimonotonicity)),传统的频繁模式挖掘算法已经不再适用,因此在加权频繁模式算法中,研究的主要关注点是如何使加权支持度或兴趣度度量满足向下闭合特性(Downward Closure Property),以便高效地剪枝搜索空间。本文主要以基于Web频繁遍历路径模式挖掘和零售业数据挖掘为实例,详细阐述了基于加权有向图(Weighted Directed Graph,WDG)的加权频繁遍历模式挖掘和加权强相关频繁模式挖掘的有关思想。图遍历模式挖掘一直是数据挖掘研究的热点之一,图及其遍历可广泛地模拟现实世界的多种数据访问形式,比较有代表性的实例就是Web路径访问,Web结构可被抽象为一个加权有向图:顶点代表网页或站点,有向边代表网页间的网页或站点间的超级链接,权值代表Web结构元素的不同重要性,然而传统的遍历模式挖掘算法仅仅考虑了非加权的遍历模式挖掘。为解决加权遍历模式挖掘问题,本文主要从以下几个方面做了深入研究:归纳了加权频繁遍历模式挖掘(Weighted Frequent Traversai Pattern Mining,WFTPM)的种类,将Web加权频繁遍历模式挖掘,从用户类型角度分为个体加权频繁遍历模式挖掘(IndividualWFTPM,IWFTPM)和整体加权频繁遍历模式挖掘(Holistic WFTPM,HWFTPM);从采取的挖掘方法角度分为普通遍历模式挖掘和序列遍历模式挖掘。提出了加权有向图模型,总结了加权有向图的种类,提出了两类加权有向图——顶点加权有向图(Vertex-Weighted Directed Graph,VWDG)和边加权有向图(Edge-Weighted Directed Graph,EWDG),并详细阐述了两类WDG间的转换方法,简化了基于加权有向图的频繁遍历模式挖掘问题,完善了基于图遍历的模式挖掘问题的理论基础。基于加权有向图模型,本文做了以下几方面工作。针对挖掘IWFTPM问题,提出了加权遍历模式间的一种新颖特性——可拓展特性,把对候选模式的剪枝问题转化为判断候选模式的可扩展性问题。基于加权模式间的可拓展特性,提出了一种基于加权有向图结构的频繁遍历模式挖掘算法——WFTPMiner(Weighted Frequent Traversal PatternMiner)算法,并提出了实现该算法的两种策略——EGTG(Evaluated by Global Topology of Graph)策略和ELTG(Evaluated by Local Topology of Graph)策略。当最小支持度阈值较小时,用算法WFTPMiner挖掘加权频繁模式将导致效率低下,为克服以上不足,提出了一种修订的加权支持度表示法,然后利用加权FP-tree模式增长方法,提出了两种高效的基于加权有向图的频繁遍历模式挖掘算法:CWFTPMiner(Closed Weighted Frequent TraversalPattern Miner)和WTMaxMiner(Weighted Traversal-based Maximal frequent pattern Miner),前者用于挖掘闭合加权频繁遍历模式,后者用于挖掘最大加权频繁遍历模式。此外,在实现这两种算法的过程中,详细分析了闭合约束和加权约束的不同结合顺序可能造成的信息丢失现象,提出了两种约束的正确结合顺序。对加权FP-tree模式增长算法的弊端和遍历路径中相关项目的连续性特点,把遍历模式看作是序列模式,提出了一种基于图遍历的加权序列模式挖掘算法WTSPMiner(Weighted Traversal-basedSequential Pattern Miner),该算法采用一种改进的加权前缀投影模式增长方法,运用分而治之策略,把挖掘原来加权序列数据库的任务分解成一组挖掘局部加权投影数据库的小任务,通过将加权约束添加到挖掘过程中,实现加权频繁序列遍历模式的挖掘。为解决HWFTP挖掘问题,提出了一种挖掘基于统计理论的加权频繁遍历模式挖掘算法SWFTPMiner(Statistical theory-based Weighted Frequent Traversal Pattern Miner),该算法利用统计理论中的置信度概念,首先清除掉原始遍历数据库T中带有噪声权值的“异常点”(Outlier),从而得到能反映整体绝大多数用户遍历行为的修订加权有向图Gr及遍历数据库Tr,然后具体提出了两种从修订的Tr中挖掘WFTPs的策略方法——逐层挖掘策略和分而治之挖掘策略。此外,本文以零售业为例,提出了一种加权强相关频繁模式挖掘算法WHFPMiner(WeightedHighly-correlated Frequent Pattern Miner),在算法中,提出了一种新的目标兴趣度度量标准——加权h-置信度,通过采用修订的加权支持度,证明了加权h-置信度具有反单调性和交叉加权支持性,最终基于加权FP-tree模式增长方法,利用加权h-置信度的两种特性快速地挖掘出包含有相似加权支持度水平的项目的加权频繁模式。广泛的实验性能分析表明,本文提出的算法是高效的和可伸缩的,能够有效的完成各自的加权频繁挖掘任务。更重要的是,本文中提到的很多算法具有广阔的应用领域,例如,基于加权有向图的频繁遍历模式挖掘算法可以很方便地应用到很多能够被建模为加权有向图的实际应用中。

论文目录

  • 摘要
  • Abstract
  • 主要符号对照表
  • 第1章 绪论
  • 1.1 数据挖掘概述
  • 1.1.1 数据挖掘的产生
  • 1.1.2 数据挖掘的概念
  • 1.1.3 知识发现基本过程
  • 1.1.4 KDD常用处理过程模型
  • 1.1.5 数据挖掘的任务与应用
  • 1.1.6 数据挖掘的特点
  • 1.1.7 数据挖掘的主要挑战
  • 1.2 选题背景及意义
  • 1.3 论文的主要研究内容及创新点
  • 1.4 论文的组织结构
  • 第2章 加权频繁遍历模式挖掘概述
  • 2.1 频繁模式挖掘
  • 2.1.1 关联规则挖掘相关概念
  • 2.1.2 频繁模式挖掘定义及算法类型
  • 2.2 加权频繁模式挖掘概述
  • 2.2.1 约束频繁模式挖掘
  • 2.2.2 加权频繁模式挖掘
  • 2.3 基于加权有向图的频繁遍历模式挖掘
  • 2.3.1 问题的提出
  • 2.3.2 加权有向图模型
  • 2.3.3 遍历访问模式种类
  • 2.3.4 两类加权有向图的转换
  • 2.4 本章小结
  • 第3章 利用加权模式可拓展性有效挖掘加权频繁遍历模式
  • 3.1 引言
  • 3.2 基本知识和相关定义
  • 3.3 从加权有向图中挖掘频繁遍历模式
  • 3.3.1 剪枝策略
  • 3.3.2 两种剪枝算法的复杂度分析
  • 3.3.3 候选模式集产生策略
  • 3.3.4 加权频繁遍历模式挖掘算法WFTPMiner
  • 3.4 支持度/权值界评价方法
  • 3.4.1 通过图的全局拓扑结构计算l-支持度界或l-权值界——方法EGTG
  • 3.4.2 用EGTG法挖掘加权频繁遍历模式实例分析
  • 3.4.3 通过图的局部拓扑结构计算l-支持度界或l-权值界——方法ELTG
  • 3.4.4 用ELTG法挖掘加权频繁遍历模式实例分析
  • 3.5 实验与性能分析
  • 3.5.1 生成合成数据集
  • 3.5.2 两种支持度界/权值界评估方法的有效性比较
  • 3.5.3 算法可伸缩性研究
  • 3.5.4 算法正确性研究
  • 3.6 本章小结
  • 第4章 基于加权FP-tree的加权频繁遍历模式挖掘算法
  • 4.1 引言
  • 4.2 问题表述
  • 4.2.1 相关定义
  • 4.2.2 修订加权支持度
  • 4.2.3 频繁模式的闭合性与加权性约束的结合顺序
  • 4.3 利用加权FP-tree挖掘闭合加权频繁遍历模式
  • 4.3.1 构建加权FP-tree
  • 4.3.2 搜索空间剪枝策略及必要检查
  • 4.3.3 自底向上、分而治之挖掘加权FP-tree
  • 4.3.4 闭合加权频繁遍历模式挖掘算法CWFTPMiner
  • 4.4 利用加权FP-tree挖掘最大加权频繁遍历模式
  • 4.4.1 搜索空间剪枝策略
  • 4.4.2 使用分而治之策略自底向上挖掘加权FP-tree
  • 4.4.3 基于WDG的最大频繁模式挖掘算法
  • 4.5 实验评估
  • 4.5.1 生成合成数据集
  • 4.5.2 算法CWFTPMiner与算法FPclose有效性和可伸缩性比较
  • 4.5.3 算法WTMaxMiner与算法FPmax有效性和可伸缩性比较
  • 4.6 本章小结
  • 第5章 一种有效的基于图遍历的加权频繁序列模式挖掘算法
  • 5.1 引言
  • 5.2 问题表述
  • 5.2.1 基本知识和相关定义
  • 5.2.2 修正遍历序列加权支持度
  • 5.3 利用加权投影模式增长方法从WDG遍历中挖掘WFTSP
  • 5.3.1 从简单遍历序列数据库中挖掘WFTSP
  • 5.3.2 从复杂遍历序列数据库中挖掘WFTSP
  • 5.4 实验评估
  • 5.4.1 生成合成数据集
  • 5.4.2 简单遍历序列事务数据库实验结果
  • 5.4.3 复杂遍历序列事务数据库实验结果
  • 5.5 本章小结
  • 第6章 利用统计理论有效挖掘带有噪声数据的整体加权频繁遍历模式
  • 6.1 引言
  • 6.2 问题表述
  • 6.2.1 基本知识
  • 6.2.2 相关定义
  • 6.3 基于统计理论的加权频繁遍历模式挖掘方法—SWFTPMiner
  • 6.3.1 修订加权TTDB和VWDG
  • 6.3.2 运用逐层策略挖掘加权频繁模式
  • 6.3.3 利用加权FP-tree分而治之策略挖掘加权频繁模式
  • 6.3.4 其他整体加权频繁模式挖掘方法
  • 6.4 实验评估
  • 6.4.1 实验环境与数据集合成
  • 6.4.2 置信度考虑与否对算法的性能影响测试
  • 6.4.3 算法有效性测试
  • 6.4.4 算法可伸缩性测试
  • 6.5 本章小结
  • 第7章 WHFPMiner:利用加权FP-tree模式增长算法有效挖掘加权强相关频繁模式
  • 7.1 引言
  • 7.2 问题表述
  • 7.2.1 基本知识
  • 7.2.2 相关定义
  • 7.2.3 加权h置信度的反单调性和交叉加权支持度性
  • 7.3 挖掘具有强相关性的加权频繁模式
  • 7.3.1 构建加权FP-tree
  • 7.3.2 加权强相关频繁模式挖掘算法WHFPMiner
  • 7.3.3 搜索空间剪枝策略
  • 7.3.4 运用分而治之策略,自底向上遍历挖掘全局加权FP-tree
  • 7.4 实验评估
  • 7.4.1 实验环境和数据集
  • 7.4.2 实验结果及分析
  • 7.5 本章小结
  • 第8章 总结与展望
  • 8.1 本文工作
  • 8.2 进一步工作
  • 致谢
  • 参考文献
  • 附录A:算法索引
  • 附录B:插图索引
  • 附录C:表格索引
  • 附录D:作者在攻读博士学位期间发表的论文及参与科研情况
  • 1.论文情况(已发表和录用)
  • 2.参与和合作的科研项目
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    加权频繁模式挖掘算法研究
    下载Doc文档

    猜你喜欢