论文摘要
流数据是一种广泛存在的数据形式,如金融市场证券信息分析数据、网络传输数据、电信部门的通话记录数据、Web点击数据等。流数据由于其无限性、实时性、高速性等特点,给数据流分析和挖掘带来极大挑战。特别是,数据流上的数据重复性,即由于软硬件故障、拓扑结构等原因产生的非正确重复性数据,对于数据流关联分析、相关性分析、统计分析等带来极大影响。为此,本文重点研究了数据流上的重复数据检测技术。本文首先介绍了一些相关工作,包括数据流及其模型,概要技术和一些重复检测技术。然后指出了SBF等方法可能无法降低误判率和浪费系统资源等不足。本文的重复检测技术主要面向高速、实时、海量、变化的流数据,要求检测方法具有在线处理和实时响应特性。为此,本文提出一种基于Bloom Filter的自适应重复检测方法ABF(Adaptive Bloom Filter),主要研究内容有:(1)提出一种基于Bloom Filter的错误约束下的重复检测方法。方法利用了滑动窗口数据概要结构,同时为了适应重复变化,对窗口进行分块。给出了在用户指定误判率约束条件下的数据分块Bloom Filter长度确定理论。该方法可以在保证用户误判率的同时,简化数据概要的更新操作,加快数据重复检测的速度。(2)为了能够反映数据重复变化,提出一种自适应窗口滑动策略。能根据检测到重复数据的间隔自动改变未来窗口的大小和滑动步长,从而提高检测的准确率和效率。通过分析我们的方法的误差只能产生假阳性,而没有假阴性。(3)基于ABF方法,本文进一步提出一种面向分布式数据流环境下的重复检测方法。该方法采用在其它机器上保存一个BF副本,将非重复数据所映射的位传递到其它机器的副本上,再利用这个副本与副本所在机器窗口内的BF进行对比,然后检测出重复数据。其可以保证与集中式检测相同的误检率,并且具有较高的空间使用率和较低的网络通信代价。理论分析和实验结果表明,本文提出的数据流重复数据检测方法具有较高的精度和较低的时间、空间复杂度,更加适用于数据流的应用场景。
论文目录
相关论文文献
- [1].论基于异常数据检测的网络数据库安全管理问题[J]. 电子元器件与信息技术 2020(02)
- [2].车联网中基于核密度估计的异常数据检测算法[J]. 有线电视技术 2016(05)
- [3].电力系统不良数据检测与辨识方法的现状与发展[J]. 电力系统保护与控制 2010(05)
- [4].状态估计与不良数据检测方法及其在大庆油田电网中的应用[J]. 化工自动化及仪表 2010(12)
- [5].重复数据检测在多版本数据备份中的应用[J]. 计算机应用研究 2009(01)
- [6].动态数据环境下网络重复数据检测方法仿真[J]. 计算机仿真 2017(06)
- [7].激光通信网络中的异常数据检测方法研究[J]. 激光杂志 2016(10)
- [8].MIMO系统中的数据检测[J]. 民营科技 2009(07)
- [9].面向群智感知车联网的异常数据检测算法[J]. 湖南大学学报(自然科学版) 2017(08)
- [10].异构复杂信息网络下的异常数据检测算法[J]. 计算机科学 2015(11)
- [11].大数据嵌入式网络分析特定数据检测方法研究[J]. 计算机仿真 2016(12)
- [12].基于数据链估计和时间窗口重排的坏数据检测[J]. 科技通报 2015(12)
- [13].RFID交通错误数据检测及分析[J]. 交通信息与安全 2016(02)
- [14].基于蚁群算法的异常数据检测方法[J]. 计算机工程 2016(08)
- [15].不良数据检测与辨识算法的评估研究[J]. 计算机工程与应用 2012(22)
- [16].利用文本挖掘数据检测观念意识重大转变的非参方法研究[J]. 数学的实践与认识 2016(23)
- [17].某飞控数据检测设备通信接口设计[J]. 中国科技信息 2015(02)
- [18].网络化环境病毒防御过程突变数据检测仿真[J]. 计算机仿真 2018(09)
- [19].数据检测在石化行业VOCs总量核算中的应用[J]. 资源节约与环保 2018(10)
- [20].一种实用的不良数据检测与辨识方法[J]. 广东电力 2017(11)
- [21].一种利用不完整数据检测交通异常的方法[J]. 计算机科学 2016(S1)
- [22].基于主成分分析法的异常数据检测及其应用[J]. 教育教学论坛 2009(02)
- [23].基于主成分分析法的异常数据检测及其应用[J]. 教育教学论坛 2009(09)
- [24].基于长短期记忆网络的PMU不良数据检测方法[J]. 电力系统保护与控制 2020(07)
- [25].船舶通信系统的异常数据检测[J]. 舰船科学技术 2018(02)
- [26].基于极值点分块的重复数据检测算法[J]. 信息网络安全 2013(08)
- [27].基于LabVIEW8.6的多路数据检测系统的实现[J]. 机电产品开发与创新 2010(01)
- [28].基于改进序列概率比检验方法的异常数据检测[J]. 西南师范大学学报(自然科学版) 2018(01)
- [29].生态环境GIS数据检测的内涵及应用[J]. 低碳世界 2017(17)
- [30].基于数据复杂度的投毒数据检测方法[J]. 计算机应用研究 2020(07)