数据流频繁项集挖掘研究

数据流频繁项集挖掘研究

论文摘要

20世纪末,随着信息科学技术的不断进步,一种被称为数据流的模型出现在众多现实应用领域中,例如金融市场、网络监测、无线传感器网络等。与传统数据库中的静态数据集不同,数据流是一种源源不断产生,时间维度上严格有序,数值上不断变化的高速数据序列。数据流的这些特点,使得包括频繁项集挖掘在内的传统数据挖掘技术难以直接适用于数据流。本文对数据流中频繁项集挖掘技术进行了深入探索,主要有以下内容:(1)对数据流模型、数据流挖掘特点、现有的研究成果进行了总结,着重讨论了数据流中频繁项集挖掘技术,并在此基础上提出了一种事务链表组模型。(2)在对传统和数据流频繁项集挖掘技术深入研究的基础上,提出了一个基于滑动窗口、事务链表组、近似思想的DSTLG算法,来挖掘数据流中的频繁项集。(3)为了最大程度上减少频繁项集挖掘结果数,本文在数据流频繁项集挖掘DSTLG算法思想的基础上进行扩展,提出了DSMTLG算法,来挖掘数据流中的最大频繁项集。(4)通过一系列实验证明DSTLG及DSMTLG算法有着较好的时间和空间效率,并从时间代价和空间代价两个角度进行了性能分析。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究背景及意义
  • 1.2 当前研究现状及选题依据
  • 1.2.1 国内外研究现状
  • 1.2.2 选题依据
  • 1.3 本文研究的内容
  • 1.4 论文组织结构
  • 第二章 数据流挖掘问题描述
  • 2.1 数据流模型的研究
  • 2.1.1 数据流模型及划分
  • 2.1.2 数据流与传统数据的处理模型
  • 2.2 数据流挖掘面临的挑战
  • 2.2.1 数据流挖掘算法的特点
  • 2.2.2 适合数据流算法的处理技术
  • 2.3 数据流频繁项集挖掘问题
  • 2.4 数据流频繁项集挖掘算法分类
  • 2.4.1 基于概率误差区间的算法
  • 2.4.2 基于确定误差区间的算法
  • 2.5 本章小结
  • 第三章 数据流频繁项集挖掘处理机制研究
  • 3.1 数据流频繁项集挖掘处理机制
  • 3.1.1 近似控制
  • 3.1.2 窗口变化
  • 3.1.3 数据结构
  • 3.1.4 衰减因子
  • 3.2 基于数据流模型的近似度保证
  • 3.2.1 基于界标模型的近似度保证
  • 3.2.2 基于滑动窗口的近似度保证
  • 3.2.3 时间倾斜窗口与多时间粒度
  • 3.3 数据结构优化机制的研究
  • 3.3.1 FP-Tree 与前缀树模型
  • 3.3.2 传统多事务链模型
  • 3.3.3 数据流中事务链表组模型
  • 3.4 本章小结
  • 第四章 数据流频繁项集挖掘算法研究
  • 4.1 频繁模式分类及相关定义
  • 4.2 不同频繁模式比较
  • 4.3 数据流频繁项集挖掘DSTLG 算法
  • 4.3.1 最大可能频繁度的估计
  • 4.3.2 DSTLG 算法求解过程
  • 4.3.3 滑动窗口和事务链表组的更新策略
  • 4.3.4 事务链表组的修剪与还原
  • 4.3.5 频繁项集的请求输出
  • 4.4 DSTLG 算法分析与讨论
  • 4.5 DSTLG 算法的扩展研究
  • 4.5.1 事务链的扩展定义
  • 4.5.2 扩展后事务链表组的更新策略
  • 4.5.3 最大频繁项集的请求输出
  • 4.5.4 扩展算法意义及局限性
  • 4.6 本章小结
  • 第五章 实验结果及分析
  • 5.1 实验环境和测试数据
  • 5.2 实验结果
  • 5.2.1 稳定性实验
  • 5.2.2 对比实验
  • 5.2.3 扩展算法实验
  • 5.3 实验分析
  • 5.3.1 时间性能分析
  • 5.3.2 空间性能分析
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 论文总结
  • 6.2 未来工作展望
  • 参考文献
  • 致谢
  • 在学期间的研究成果
  • 附录
  • 附录1 eclipseUML 生成的算法类图
  • 附录2 DSTLG 算法核心代码
  • 相关论文文献

    • [1].基于动态窗口的大数据流式处理技术研究[J]. 数字技术与应用 2020(03)
    • [2].基于邻域相似的大数据流滞后相关性挖掘仿真[J]. 计算机仿真 2020(06)
    • [3].数据流技术在汽车维修中的应用探讨[J]. 时代汽车 2019(07)
    • [4].基于大数据的定性数据流聚类优化模型研究[J]. 西安文理学院学报(自然科学版) 2019(04)
    • [5].一种基于数据流的异常值检测改进算法[J]. 中国科技信息 2017(23)
    • [6].云计算中数据流存储负载均衡优化仿真[J]. 计算机仿真 2018(10)
    • [7].大数据流式计算系统综述[J]. 成组技术与生产现代化 2016(04)
    • [8].数据流技术在汽车维修中的应用[J]. 科技展望 2016(16)
    • [9].数据流分类挖掘中的概念变化研究[J]. 计算机科学 2014(S2)
    • [10].浙江传媒学院加快数据治理形成“数据流”[J]. 中国教育网络 2020(Z1)
    • [11].面向非平衡与概念漂移的数据流分类的研究[J]. 现代计算机 2020(04)
    • [12].基于迁移学习的数据流分类研究综述[J]. 天津理工大学学报 2019(03)
    • [13].试分析电网自动化中数据流技术的运用[J]. 电工文摘 2016(06)
    • [14].海量数据流的分类稳定性决策与评判数学模型仿真[J]. 科技通报 2016(02)
    • [15].非平稳数据流下的网络入侵检测优化方法研究[J]. 计算机仿真 2016(09)
    • [16].分布式数据流分类关键技术研究[J]. 华北科技学院学报 2015(04)
    • [17].数据流技术在电喷发动机维修中的应用分析[J]. 湖南农机 2014(05)
    • [18].数据流技术在电网自动化中的应用实践[J]. 电子技术与软件工程 2014(08)
    • [19].数据流技术在汽车维修中的运用[J]. 黑龙江科技信息 2014(26)
    • [20].数据流系统降载研究综述[J]. 计算机应用研究 2008(10)
    • [21].基于协调数据流抢占机制的原理及设计[J]. 电脑与电信 2008(10)
    • [22].基于多维分层采样的时间维度型大数据流整合系统设计[J]. 现代电子技术 2020(05)
    • [23].数据流计算环境下的集群资源管理技术[J]. 大数据 2020(03)
    • [24].大数据流计算特点及“单一窗口”适用场景探讨[J]. 中国口岸科学技术 2020(08)
    • [25].基于自适应微簇的任意形状概念漂移数据流聚类[J]. 计算机应用与软件 2020(11)
    • [26].一种对数据流进行聚类的改进算法[J]. 电子设计工程 2017(22)
    • [27].分布式数据流上的高性能分发策略[J]. 软件学报 2017(03)
    • [28].一种基于质量估算的空间数据流聚类算法研究[J]. 计算机应用研究 2017(09)
    • [29].融合互近邻降噪的动态数据流分类研究[J]. 计算机科学与探索 2016(01)
    • [30].多媒体云计算下的大规模数据流调度方法研究[J]. 现代电子技术 2015(20)

    标签:;  ;  ;  ;  ;  

    数据流频繁项集挖掘研究
    下载Doc文档

    猜你喜欢