基于多层索引结构的频繁子图挖掘算法研究

基于多层索引结构的频繁子图挖掘算法研究

论文摘要

随着信息技术的飞速发展,数据规模的急速膨胀,如何有效地解决海量数据的利用问题具有巨大的商机和科学研究价值,特别是近几十年来数据库、统计学和人工智能等学科的发展决定并促进了数据挖掘的产生和迅速发展。数据挖掘是指从大型数据库或数据仓库中挖掘出数据间潜在的模式,自动提取未知的、完整的、有价值的信息,以指导商业行为或辅助科学研究。数据挖掘技术及其算法成为目前国际上数据库和信息决策领域最前沿的研究方向之一。频繁模式挖掘是数据挖掘的重要任务并被广泛应用于各个领域,基于Apriori思想和FP-Growth树的算法成为两大主流被广泛应用,前期主要是针对无结构数据的模式挖掘,随着研究的深入日益表现出它的局限性,而频繁模式中的频繁子图结构可以表达更为丰富的信息也具有更大的挖掘难度。图结构挖掘在社会网络、分子结构和生物信息学等领域有着更为广泛的应用。近年来,关于图结构挖掘的研究成为热点。频繁子图挖掘算法是图结构挖掘研究的基础问题之一,决定着图结构挖掘中图分类和图查询等问题的研究难度,但频繁子图挖掘的核心操作子图同构测试复杂性太高,测试支持度必须多次重复扫描数据库,也耗费了大量时间,因此如何有效挖掘频繁子图已成为数据挖掘领域的热点问题之一。在各种频繁子图算法中:最早采用Apriori思想的是AGM算法,它采用邻接矩阵来表示图,并将min(code)作为该图的唯一邻接矩阵,从而避免了直接进行子图同构的计算;gSpan算法采用深度优先搜索和模式增长的方法,从而在一定程度上避免了子图同构测试的代价,但面对大规模图集的挖掘时,大量的I/O操作就会大大降低算法的性能;ADI-Mine算法在gSpan算法基础上引入了ADI索引结构,这种索引结构可以降低子图同构检查的单位时间,并使得算法的执行效率有所提高;最近又提出了将搜索范围限制在一定边缘区域的MARGIN算法等。在深入研究已有的各种频繁子图挖掘算法基础上,针对无向标号连通图,本文设计了一种图的多层索引存储结构GDI,提出了基于GDI的频繁子图挖掘算法TG-Mine。首先,此算法使用了DFS编码树的搜索空间,不会丢失任何频繁子图,保证了结果集的完备性。其次,它运用的GDI索引结构可以完全代替对原始图集的搜索,简化了频繁子图挖掘过程中大量的数据访问操作。TG-Mine算法的整个挖掘过程可分为两步:第一步,深度优先(DFS)挖掘频繁子树,第二步,广度优先(BFS)扩展第一步生成的所有频繁子树集为频繁子图集。在第一步DFS扩充边的过程中仅仅扩充前向边,保证生成的更大的频繁模式是树结构,第二步扩充边的过程中仅仅扩充后向边,不生成新的结点,有效地生成候选子图,降低了检查子图同构的单位时间并减少了DFS编码的测试次数。最后,本文对TG-Mine算法进行实验,并与gSpan算法和ADI-Mine算法进行了比较,TG-Mine的效率相对较高。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.3 所做的主要工作
  • 1.4 论文的结构
  • 第2章 数据挖掘与图结构数据挖掘简介
  • 2.1 数据挖掘简介
  • 2.1.1 数据挖掘的产生背景
  • 2.1.2 数据挖掘的概念与过程
  • 2.1.3 数据挖掘的分类及功能
  • 2.1.4 数据挖掘的难点与发展趋势
  • 2.2 图结构数据挖掘简介
  • 2.2.1 图的基本概念
  • 2.2.2 图结构数据挖掘的背景及应用
  • 2.2.3 图结构数据挖掘的分类
  • 2.2.4 图结构数据挖掘的难点
  • 2.3 本章小结
  • 第3章 几种典型的频繁子图挖掘算法
  • 3.1 基于Apriori的算法AGM
  • 3.2 经典算法gSpan
  • 3.2.1 gSpan算法的相关概念
  • 3.2.2 gSpan算法思想
  • 3.3 ADI-Mine算法思想
  • 3.4 MARGIN算法
  • 3.5 频繁子图挖掘算法小结
  • 第4章 频繁子图挖掘算法TG-Mine的研究与实现
  • 4.1 TG-Mine算法的相关概念
  • 4.2 TG-Mine算法思想
  • 4.3 多层索引结构GDI的构建
  • 4.4 频繁子树挖掘算法TreeMine
  • Mine算法思想'>4.4.1 判断DFS编码最小化的QuickMine算法思想
  • 4.4.2 数据结构
  • 4.4.3 TreeMine算法的分析与设计
  • 4.5 频繁子图挖掘算法TG-Mine
  • 4.6 复杂度分析
  • 4.6.1 GDI多层索引结构的空间复杂度
  • 4.6.2 TG-Mine算法的时间复杂度
  • 4.7 实验结果与性能分析
  • 4.8 本章小结
  • 第5章 总结与展望
  • 5.1 总结
  • 5.2 进一步工作
  • 参考文献
  • 附录
  • 致谢
  • 攻读硕士学位期间的研究成果
  • 相关论文文献

    • [1].单图中的近似频繁子图挖掘算法[J]. 华东师范大学学报(自然科学版) 2019(06)
    • [2].《吉祥多子图》临摹[J]. 大众文艺 2018(10)
    • [3].吉祥多子图页[J]. 中国书画 2018(09)
    • [4].在复杂网络中查找k个有限重叠的密集子图[J]. 计算机应用与软件 2016(12)
    • [5].吉祥多子图[J]. 文艺研究 2017(03)
    • [6].吉祥多子图[J]. 美与时代(中) 2017(06)
    • [7].《吉祥多子图》[J]. 老年教育(书画艺术) 2016(01)
    • [8].《吉祥多子图》[J]. 明日风尚 2016(08)
    • [9].《吉祥多子图》[J]. 参花(上) 2016(06)
    • [10].最大公共子图的约束符号求解方法[J]. 广西科学院学报 2017(01)
    • [11].基于改进完全子图模型的关注对象多社区发现研究[J]. 南京理工大学学报 2016(06)
    • [12].一种基于特征子图的不确定图分类算法[J]. 陕西师范大学学报(自然科学版) 2014(05)
    • [13].指令扩展中相关子图的分析与处理[J]. 计算机辅助设计与图形学学报 2009(10)
    • [14].因子图发展及其在定位与导航的应用技术[J]. 全球定位系统 2020(01)
    • [15].具有最多与最少连通子图的单圈图[J]. 宜春学院学报 2015(03)
    • [16].单圈图的连通子图的数目[J]. 南开大学学报(自然科学版) 2011(03)
    • [17].改进的最大频繁子图挖掘算法[J]. 信息与电脑(理论版) 2017(18)
    • [18].从不确定图中发现K紧密子图[J]. 计算机科学与探索 2011(09)
    • [19].频繁子图挖掘研究综述[J]. 微电子学与计算机 2009(03)
    • [20].频繁子图挖掘算法的应用分类[J]. 电脑知识与技术 2020(29)
    • [21].加权最大频繁子图挖掘算法的研究[J]. 计算机工程与应用 2009(20)
    • [22].一种挖掘最大频繁子图的新算法[J]. 系统仿真学报 2008(18)
    • [23].基于子图模式的反恐情报关联图集分析[J]. 现代情报 2019(07)
    • [24].具有结果多样性的近似子图查询算法[J]. 南京大学学报(自然科学) 2019(06)
    • [25].频繁子图挖掘算法的若干问题[J]. 采矿技术 2011(05)
    • [26].基于近似子图的规则空间压缩算法[J]. 自动化学报 2019(08)
    • [27].一个复杂网络中完全子图的搜索算法[J]. 数学理论与应用 2013(03)
    • [28].标签零模型及子图分布算法应用研究[J]. 小型微型计算机系统 2018(05)
    • [29].特殊子图的计数[J]. 淮南职业技术学院学报 2011(03)
    • [30].基于包含度的子图匹配方法[J]. 软件学报 2018(06)

    标签:;  ;  ;  

    基于多层索引结构的频繁子图挖掘算法研究
    下载Doc文档

    猜你喜欢