面向数据流的频繁模式挖掘算法研究

面向数据流的频繁模式挖掘算法研究

论文摘要

随着信息时代的发展,数据挖掘成了当前重要的研究方向,通过近十年的努力,数据挖掘技术已经相当成熟。然而,近几年来出现了一种新的数据模型,即数据流,这种数据模型广泛存在于现实生活中,如网站服务器的日志文件、股票交易、网络传感器、天气和环境监测等都产生大量的数据流。在数据流环境中进行挖掘是一项具有挑战性的工作,传统的数据挖掘技术只能处理静态数据,对这种大量的、快速的数据流却无能为力。频繁模式挖掘是数据挖掘中一项非常重要的任务,最近几年,在数据流频繁模式挖掘领域已经产生了大量的研究成果。然而这些研究都需要大量的存储空间,挖掘效率也不够高,尤其是无法对新到来的数据进行实时更新。针对这些问题,本文提出了一种新的数据流频繁模式挖掘方案,包含相应的数据过滤、编码方法、新的概要数据结构和挖掘算法,并实现了面向数据流的频繁模式挖掘系统。首先,提出基于Hash结构的数据过滤和编码方法。针对数据流快速、无限的特征,通过滑动窗口来对数据流进行缓冲,从而限制每次处理的数据量。通过Hash表对基本窗口中的数据进行过滤和重编码,进一步减小挖掘的数据量,而且简化数据类型,得到项目之间的规范顺序。这些有助于构造和更新前缀树结构。其次,提出了一种新的概要数据结构NCH-Tree。在NCH-Tree结构中引入B+树的思想,把所有事务的时间信息存放在一个链表中,方便进行更新。再次,在数据过滤、编码和概要数据结构NCH-Tree的基础上,进一步提出数据流频繁模式挖掘算法,很好地满足了数据流频繁模式挖掘的需求。最后,设计并实现了面向数据流的频繁模式挖掘系统。在该系统中,设计了一种概要数据结构来存储频繁模式集,通过此结构,挖掘算法可以和用户进行交互,根据用户的不同需求返回不同的结果。通过实验可以发现,本文所提出的面向数据流的频繁模式挖掘算法能很快对新到来的数据进行更新并保证较高的挖掘准确性,同时,此算法的挖掘效率高于同类算法。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.3 本文的研究内容
  • 1.4 本文结构
  • 第2章 数据流和频繁模式挖掘
  • 2.1 数据流
  • 2.1.1 数据流模型
  • 2.1.2 数据流模型的特点
  • 2.2 数据流管理系统
  • 2.3 数据流处理
  • 2.3.1 数据流处理模型
  • 2.3.2 数据流处理技术
  • 2.4 频繁模式挖掘算法分析
  • 2.4.1 Apriori算法
  • 2.4.2 FP-growth算法
  • 2.4.3 FP-growth算法的发展和改进
  • 2.4.4 部分枚举算法
  • 2.4.5 挖掘结果处理
  • 2.5 数据流频繁模式挖掘
  • 2.6 本章小结
  • 第3章 面向数据流的频繁模式挖掘算法研究
  • 3.1 挖掘算法分析
  • 3.1.1 启发式频繁模式挖掘算法
  • 3.1.2 批处理式频繁模式挖掘算法
  • 3.2 基于Hash表的滑动窗口预处理
  • 3.2.1 滑动窗口技术
  • 3.2.2 数据过滤和重编码
  • 3.3 NCH-Tree及算法
  • 3.3.1 NCH-Tree的结构
  • 3.3.2 NCH-Tree的构造和更新
  • 3.4 基于NCH-Tree的频繁模式挖掘
  • 3.5 基于NC-PB的用户查询模块
  • 3.5.1 输出缓存(NC-PB)
  • 3.5.2 基于NC-PB的限制性模式查询
  • 3.6 本章小结
  • 第4章 实验分析
  • 4.1 过滤和重编码性能分析
  • 4.1.1 实验结果
  • 4.1.2 实验分析
  • 4.2 挖掘和更新性能分析
  • 4.2.1 实验结果
  • 4.2.2 实验分析
  • 4.3 本章小结
  • 第5章 NCH-DSFM系统的设计和实现
  • 5.1 滑动窗口预处理模块设计
  • 5.1.1 设计内容
  • 5.1.2 设计目的
  • 5.1.3 实现方法
  • 5.2 基于NCH-Tree的挖掘模块设计
  • 5.2.1 设计内容
  • 5.2.2 设计目的
  • 5.2.3 实现方法
  • 5.3 基于NC-PB的查询模块的设计
  • 5.3.1 设计内容
  • 5.3.2 设计目的
  • 5.3.3 实现方法
  • 5.4 本章小结
  • 第6章 总结和展望
  • 参考文献
  • 致谢
  • 攻读硕士期间参加的项目和发表的论文
  • 相关论文文献

    • [1].基于频繁模式挖掘对企业成功人士取得成就的因素研究[J]. 价值工程 2020(01)
    • [2].概率代表频繁模式挖掘[J]. 牡丹江师范学院学报(自然科学版) 2017(02)
    • [3].高效用频繁模式挖掘技术研究[J]. 齐鲁工业大学学报(自然科学版) 2017(01)
    • [4].不确定数据的频繁模式挖掘[J]. 白城师范学院学报 2016(05)
    • [5].一种快速频繁模式挖掘算法[J]. 烟台大学学报(自然科学与工程版) 2015(02)
    • [6].基于数据流的大图中频繁模式挖掘算法研究[J]. 计算机学报 2020(07)
    • [7].频繁模式挖掘系统的设计与开发[J]. 计算机技术与发展 2018(02)
    • [8].概率频繁模式挖掘算法研究综述[J]. 电子技术与软件工程 2017(08)
    • [9].基于滑动窗口模型的数据流加权频繁模式挖掘算法[J]. 软件工程 2016(10)
    • [10].基于分类频繁模式挖掘的书目推荐策略与算法[J]. 情报科学 2012(12)
    • [11].界标窗口数据流频繁模式挖掘特性[J]. 计算机工程与应用 2011(10)
    • [12].概念格在频繁模式挖掘中的应用研究[J]. 湖南科技大学学报(自然科学版) 2010(02)
    • [13].数据流的频繁模式挖掘算法浅析[J]. 电脑知识与技术 2008(S2)
    • [14].小波滤波在时间序列频繁模式挖掘中的应用[J]. 哈尔滨工程大学学报 2008(01)
    • [15].数据流频繁模式挖掘算法设计[J]. 计算机科学 2008(03)
    • [16].改进的频繁模式挖掘算法[J]. 计算机系统应用 2019(09)
    • [17].基于条件模式的一种无分组并行频繁模式挖掘算法(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2019(09)
    • [18].面向频繁模式挖掘的差分隐私保护研究综述[J]. 通信学报 2014(10)
    • [19].一种改进的压缩频繁模式挖掘算法[J]. 西南师范大学学报(自然科学版) 2013(07)
    • [20].频繁模式挖掘算法综述[J]. 福建电脑 2010(02)
    • [21].流数据频繁模式挖掘技术综述[J]. 内燃机与动力装置 2009(S1)
    • [22].时空轨迹频繁模式挖掘研究进展[J]. 江西科学 2017(06)
    • [23].基于复合粒度计算的频繁模式挖掘研究[J]. 计算机应用研究 2016(06)
    • [24].目标频繁模式挖掘算法研究[J]. 计算机工程与科学 2010(10)
    • [25].基于树搜索方式的频繁模式挖掘综述[J]. 计算机与信息技术 2009(05)
    • [26].面向数据流的频繁模式挖掘研究[J]. 计算机应用研究 2009(11)
    • [27].一种基于图形处理器的频繁模式挖掘算法[J]. 仪器仪表学报 2009(10)
    • [28].一种改进的频繁模式挖掘算法[J]. 电脑与电信 2013(03)
    • [29].频繁模式挖掘进展及典型应用[J]. 计算机工程与应用 2011(15)
    • [30].数据流频繁模式挖掘[J]. 渭南师范学院学报 2010(02)

    标签:;  ;  ;  

    面向数据流的频繁模式挖掘算法研究
    下载Doc文档

    猜你喜欢