论文摘要
与传统数据密集型应用相比,诸如网络监控系统等顺序产生的实时数据无法精确存储在数据库中,这种数据序列被称为数据流。数据流的典型特点是,其存储消耗具有潜在的无界性,其产生次序、间隔等统计特性具有不确定性,因此,数据流处理的算法需要具备以下的特点:1)算法复杂度必须是次线性的,输出结果可以是近似的;2)算法能够实时处理数据流输入。线性复杂度算法不能处理数据流的存储、查询和分析处理,因此,通过屏蔽或汇总数据流来控制次线性复杂度存储消耗成为数据流研究的重要内容。本篇论文通过对数据流上频繁项(集)发现、分布数据流并上聚合函数估算和κ-中值点(κ-median)搜寻,研究数据流处理的屏蔽和汇总的基本策略,主要贡献有:1.基于在线屏蔽策略,提出数据流上拒真的频繁项(集)发现,使用O(s-1ln(2δ-1)存储以至少1-δ概率输出频繁项;使用O(K/sln(s-1δ-1))存储可靠挖掘边界频繁项集(频繁项集的浓缩表示);2.基于采样屏蔽策略,提出滤除分布数据流中的冗余和不一致的算法,应用min-wise哈希采样数据流而获取均匀样本集。由于获取的样本集不受分布流中冗余和不一致数据影响,能够准确估计聚合函数值,并进一步应用min—wise哈希方法采样位置流(location streams)来搜寻κ-中值点;3.基于汇总数据流策略,提出数据流上κ-中值点的快速估算算法,应用空间分割的汇总结构控制存储复杂度。不同于位置流中的频繁更新,数据流上κ-中值点需要单遍扫描庞大数目点集来获取近似中值点集。研究发现分割粒度不是影响κ-中值点近似程度的直接原因,避免精细分割产生指数增长的存储消耗问题。本文的研究成果可广泛应用于数据流相关的应用,如金融交易数据的处理、传感器网络数据的分析、以及网络实时监控等领域。
论文目录
相关论文文献
- [1].基于频繁项集挖掘的零售医药企业药品关联研究[J]. 重庆科技学院学报(自然科学版) 2019(06)
- [2].基于差异节点集的加权频繁项集挖掘算法[J]. 计算机工程 2020(05)
- [3].基于强化学习的大数据频繁项集挖掘算法[J]. 信息通信 2020(06)
- [4].浅谈加权频繁项集挖掘的研究进展[J]. 电脑知识与技术 2019(27)
- [5].频繁项集挖掘的研究进展及主流方法[J]. 计算机科学 2018(S2)
- [6].不确定数据中的代表频繁项集近似挖掘[J]. 计算机与数字工程 2017(02)
- [7].基于频繁项集挖掘算法的伴随车应用与实现[J]. 计算机应用与软件 2017(04)
- [8].基于渐近取样的频繁项集挖掘近似算法[J]. 控制工程 2017(09)
- [9].一种利用差集的加权频繁项集挖掘算法[J]. 辽宁工程技术大学学报(自然科学版) 2016(03)
- [10].基于差分隐私的频繁项集挖掘研究综述[J]. 电子技术与软件工程 2016(03)
- [11].挖掘完全频繁项集的蚁群算法[J]. 微电子学与计算机 2014(12)
- [12].大数据环境下频繁项集挖掘的研究[J]. 青岛科技大学学报(自然科学版) 2015(02)
- [13].基于K均值聚类的大数据频繁项集挖掘研究[J]. 计算机仿真 2020(08)
- [14].基于动态数据的加权频繁项集挖掘算法[J]. 科学技术与工程 2019(20)
- [15].基于强化学习的大数据频繁项集挖掘算法[J]. 计算机工程与设计 2019(08)
- [16].大数据环境下基于前缀树的频繁项集挖掘[J]. 控制工程 2019(11)
- [17].一种高效的改进频繁项集挖掘算法[J]. 微电子学与计算机 2018(02)
- [18].关联规则频繁项集挖掘算法设计与实现[J]. 特区经济 2018(08)
- [19].基于概率模型的概率频繁项集挖掘方法[J]. 安阳师范学院学报 2017(02)
- [20].基于二叉树的并行频繁项集挖掘算法[J]. 计算机技术与发展 2015(10)
- [21].分布式频繁项集挖掘算法[J]. 计算机应用与软件 2015(10)
- [22].基于闭频繁项集挖掘的技术演化研究方法[J]. 图书情报工作 2013(19)
- [23].不确定数据频繁项集挖掘方法探析[J]. 莆田学院学报 2014(02)
- [24].一种基于多核微机的闭频繁项集挖掘算法[J]. 计算机应用与软件 2013(03)
- [25].基于改进倒排表和集合的最频繁项集挖掘算法[J]. 计算机应用研究 2012(06)
- [26].一种分布式全局频繁项集挖掘方法[J]. 计算机工程与应用 2011(29)
- [27].一种有效的负频繁项集挖掘方法[J]. 山东轻工业学院学报(自然科学版) 2011(04)
- [28].一种改进的加权频繁项集挖掘算法[J]. 计算机工程与应用 2010(23)
- [29].入侵检测中加权频繁项集挖掘[J]. 计算机工程与设计 2008(08)
- [30].一种新的动态频繁项集挖掘方法[J]. 计算机工程与应用 2008(21)