流数据中频繁模式挖掘算法的研究

流数据中频繁模式挖掘算法的研究

论文摘要

数据挖掘,又称数据库中的知识发现,是数据库研究中的一个很有应用价值的新领域,其目的是从大型数据库或数据仓库中提取隐含的、事先未知的、潜在有用的信息或模式,本文对流数据中的频繁项集挖掘问题进行了一定的探讨和研究。在深入探讨了如何在流数据中进行数据挖掘的问题后,本文有介绍了两个经典的挖掘流数据中频繁项集的算法。本文在考虑对商务流数据进行数据挖掘的实际情况下,着重探讨和研究了流数据中最近频繁项集的问题。为了区别流数据中新旧事务,我们提出了一个新的多时间粒度流数据模型,该模型不仅能够区别新旧事务对项集的影响力,而且能够根据实际情况自动地调慢模型中事务的衰减速度。在本文中,我们还提出了后缀树模型来间接但是快速地判断结点的连通性,从而挖掘后缀树中的频繁项集,并且根据后缀树独特的性质提出了深度优先自底向上内部项集增长方法。实验证明,在合成数据库中我们的算法有较好的最近频繁项集挖掘能力。

论文目录

  • 第一章 引言
  • 1.1 流数据挖掘
  • 1.2 流数据中的频繁项集
  • 1.3 研究背景
  • 1.4 本文主要工作
  • 第二章 流数据分析
  • 2.1 研究任务
  • 2.2 流数据模型及管理
  • 2.2.1 流数据模型及划分
  • 2.2.2 流数据模型与传统数据模型的区别
  • 2.3 流数据分析和挖掘
  • 2.3.1 解决问题的原则
  • 2.3.2 适合流数据挖掘的技术
  • 第三章 流数据中频繁项集算法
  • 3.1 Lossy Counting 算法
  • 3.1.1 问题的形式化描述
  • 3.1.2 Estimation Mechanism
  • 3.2 FP-stream 算法
  • 3.2.1 时间标签窗技术
  • 3.2.2 时间标签窗表格的裁减
  • 第四章 流数据中的最近频繁项集
  • 4.1 Landmark Model VS Sliding Window Model
  • 4.2 多时间粒度流数据模型
  • 4.2.1 基于时间粒度的衰减
  • 4.2.2 流数据中事务的衰减速度
  • 4.3 后缀树模型
  • 4.3.1 后缀树模型
  • 4.3.2 深度优先自底向上的内部项集增长
  • 4.4 RFIMiner 算法
  • 4.4.1 RFIMiner 算法
  • 4.4.2 讨论
  • 第五章 实验结果及分析
  • 5.1 实验环境和测试数据集
  • 5.2 评估RFIMiner 算法的实验结果
  • 5.2.1 RFIMiner 算法的可延展性
  • 5.2.2 RFIMiner 算法的挖掘准确性
  • 5.2.3 RFIMiner, Apriori 和FP-growth 的比较
  • 第六章 结束语及未来工作
  • 6.1 结束语
  • 6.2 未来工作展望
  • 参考文献
  • 研究生期间发表的论文
  • 摘要
  • Abstract
  • 致谢
  • 导师及作者简介
  • 相关论文文献

    • [1].面向流数据的实时处理及服务化系统[J]. 重庆大学学报 2020(07)
    • [2].基于决策树的流数据分类算法综述[J]. 西北民族大学学报(自然科学版) 2020(02)
    • [3].流数据边缘处理探讨[J]. 信息通信 2020(08)
    • [4].一种基于流数据处理的预警系统设计[J]. 电脑知识与技术 2019(30)
    • [5].基于部分重编码的流数据发布隐私保护算法[J]. 吉林大学学报(理学版) 2018(01)
    • [6].基于流数据的网络监控系统设计[J]. 重庆科技学院学报(自然科学版) 2016(04)
    • [7].一种面向流数据频繁项挖掘的降载策略[J]. 计算机应用研究 2011(04)
    • [8].流数据和传统数据存储及管理方法比较研究[J]. 计算机技术与发展 2009(04)
    • [9].流数据管理降载技术研究综述[J]. 中国管理信息化 2009(21)
    • [10].流数据复杂聚类查询处理算法[J]. 南京航空航天大学学报 2009(06)
    • [11].流数据的连续查询优化技术[J]. 计算机应用研究 2008(01)
    • [12].利用点击流数据提供个性化信息服务的模式研究[J]. 安徽农业科学 2008(02)
    • [13].一类流数据的抽样及其存储方法研究[J]. 统计与信息论坛 2018(10)
    • [14].流数据环境下基于分歧策略的高效能集成学习[J]. 计算机工程与应用 2016(13)
    • [15].面向大规模流数据的可扩展分布式实时处理方法[J]. 青岛科技大学学报(自然科学版) 2016(05)
    • [16].流数据概念漂移的检测算法[J]. 控制与决策 2013(01)
    • [17].浅析金融数据库系统中的流数据处理[J]. 信息与电脑(理论版) 2013(02)
    • [18].一种基于层次聚类的流数据挖掘方法[J]. 太原师范学院学报(自然科学版) 2008(04)
    • [19].基于流数据的模糊聚类算法[J]. 计算机应用与软件 2008(02)
    • [20].一种面向流数据的分布式实时存储方法[J]. 电脑知识与技术 2015(19)
    • [21].一种基于信息熵的多维流数据噪声检测算法[J]. 计算机科学 2012(02)
    • [22].一种流数据多播接口的设计、实现与应用[J]. 集成技术 2012(01)
    • [23].分布式流数据频繁项发现算法的研究[J]. 计算机应用 2008(01)
    • [24].可伸缩的重复流数据检测方法[J]. 系统工程与电子技术 2008(02)
    • [25].Web站点的点击流数据分析方法的设计与实现[J]. 信息与电脑(理论版) 2019(16)
    • [26].面向流数据的分布式时序同步系统的设计与实现[J]. 软件 2017(02)
    • [27].流数据聚类研究综述[J]. 科技广场 2010(01)
    • [28].差分隐私流数据自适应发布算法[J]. 计算机研究与发展 2017(12)
    • [29].基于分布式流数据的在线汇聚与统计[J]. 数字技术与应用 2018(09)
    • [30].面向流数据的演化聚类算法[J]. 武汉大学学报(理学版) 2017(05)

    标签:;  ;  ;  ;  

    流数据中频繁模式挖掘算法的研究
    下载Doc文档

    猜你喜欢