高效数据流和海量文本处理算法研究

高效数据流和海量文本处理算法研究

论文摘要

随着网络通信技术的迅速发展,以数据流形式呈现的数据大量涌现在各个信息处理领域。例如无限传感器网络中传回基站的传感数据流,人们浏览网页时产生的网络点击流,证券买卖产生的实时交易信息等等。数据流具有数据量大,持续快速产生,数据分布随时间变化等特点。而传统静态数据集合中的分析处理技术往往只适用于处理那些可存储在磁盘上的有限静态数据。这些传统技术往往都需要多次扫描所处理的全部数据,从而使得将它们直接用于处理数据流时,会带来严重的低效率和高代价。面对这些持续快速到达的海量数据流,如何利用有限的资源来有效的分析处理它们成为时下最为关心的问题。典型的数据流分析处理问题包括数据流聚类、数据流变化检测和副本检测等。随着互联网的发展,网络信息的监测和管理中急需高效的处理海量文本数据(如大量的网络网页)。而传统的文本分析处理技术仅适用于处理小规模的文本数据,而难以处理海量的文本数据。典型的文本处理问题包括文本分类、文本聚类和文本信息抽取等等。本文对数据流和海量文本处理技术中若干关键问题进行了深入研究,主要包括以下内容:1.一种适用于高维数据流变化检测算法:本文首先将数据流上的变化检测问题转化为寻找变化显著单元格的问题。基于频繁模式挖掘FP算法,设计了一种记录数据流中网格的经验分布变化值的数据结构--VT树(variation tree),并通过搜索VT树中的路径来发现高维数据流中所有经验分布变化值大于占的网格。2.一种基于代表点的高维数据流聚类算法传统的基于网格的聚类算法难以适用于处理处理演化的高维数据流。本文对高维数据流中数据点的每一个维度属性进行单独量化,然后用量化得到的每个维度上的代表点来替代传统基于网格的聚类算法中的固定划分区间。本文算法中代表点是随着不断流过的高维数据流而演化变化的,从而能更好的捕捉到演化高维数据流中聚类。3.一种滑动窗口上数据流副本检测的有效算法本文提出了一种新的数据结构:Flag Bloom Filter (FBF)。这种新的数据结构改进了目前最有效的Decaying Bloom Filter (DBF)。基于FBF,本文提出了一种高效的算法来解决滑动窗口上数据流副本检测问题。给定滑动窗口大小W,计数器个数M,FBF比DBF多使用M比特空间,但FBF的误是率是DBF的2k/(k+1),其中k=[In(2)M/W]≥2为使用的哈希函数个数。给定同样的内存空间G和滑动窗口大小W(FBF使用的计数器个数是DBF的1og W/(logW+1))FBF的误是率上界为(0.25)k(1-1/logW)(1+k(1-1/logW))。当W≥32时,这个上界比DBF的误是率要小。4.一种滑动窗口上概率数据流副本检测有效算法针对确定性数据流的副本检测方法无法保存概率数据流中元素的存在概率。基于Count ing Bloom Filter,本文提出了一种新的数据结构Floating Counter Bloom Filter(FCBF)。基于FCBF结构,本文提出了一种滑动窗口上概率数据流的副本检测算法。给定滑动窗口大小W和浮点计数器个数N,针对滑动窗口上的一个元素t,本文的方法以概率1-(1/2)In(2)*N/W输出该元素的精确存在概率。5.针对海量文本的KNN改进分类算法:面对海量文本数据时,传统的KNN分类算法无论在分类精度还是分类时间方面都明显效果很差。针对这个问题,基于最小化学习误差增量的思想,本文将学习型矢量量化(LVQ)和生长型神经气(GNG)结合起来提出了一种新的增量学习型矢量量化方法,并将其应用到海量文本分类中。本文提出的算法对所有的训练样本有选择性的进行一次训练就可以生成有效的代表样本集,从而适合处理海量文本数据,且可以有效的提高分类精度和减少分类时间。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 引言
  • 1.1 论文介绍
  • 1.2 高效数据流处理算法研究
  • 1.2.1 数据流背景介绍
  • 1.2.2 高维数据流变化检测算法研究现状和本文工作
  • 1.2.3 高维数据流聚类算法研究现状和本文工作
  • 1.2.4 滑动窗口上数据流副本检测算法研究现状和本文工作
  • 1.2.5 滑动窗口上概率数据流副本检测算法研究现状和本文工作
  • 1.3 海量文本分类算法研究
  • 1.3.1 背景介绍
  • 1.3.2 研究现状
  • 1.3.3 本文工作
  • 1.4 本文的组织
  • 第2章 一种适用于高维数据流的变化检测方法
  • 2.1 引言
  • 2.2 相关概念
  • 2.3 Hoeffding边界极其推广
  • 2.3.1 定理
  • 2.3.2 定理推广及在变化检测中应用
  • 2.4 记录网格中数据分布变化信息
  • 2.4.1 基本假设
  • 2.4.2 区间的说明和问题的转化
  • 2.4.3 构造经验分布变化表格
  • 2.4.4 VT树的构造
  • 2.4.5 算法说明与分析
  • 2.5 利用VT树发现所有变化值显著的网格
  • 2.5.1 算法和分析
  • 2.6 实验分析
  • 2.6.1 实验设计
  • 2.6.2 实验结果
  • 2.7 结语
  • 第3章 一种基于代表点的高维数据流聚类算法
  • 3.1 引言
  • 3.2 聚类背景知识
  • 3.3 高维数据特点
  • 3.4 CluRDP算法
  • 3.4.1 各维度上的量化方法
  • 3.4.2 CluRDP算法的历史数据抛弃方法
  • 3.4.3 CluRDP算法
  • 3.5 实验结果
  • 3.6 结语
  • 第4章 一种滑动窗口上数据流副本检测的有效算法
  • 4.1 引言
  • 4.2 Flag Bloom Filter
  • 4.2.1 动机
  • 4.2.2 Flag Bloom Filter
  • 4.2.3 使用FBF检测副本
  • 4.2.4 循环等级与元素生命期之间的转换
  • 4.3 算法性能分析
  • 4.3.1 误否错误率
  • 4.3.2 误是错误率
  • 4.4 基于FBF的成块处理数据流的副本检测算法
  • FBF算法'>4.4.1 bFBF算法
  • 4.4.2 算法性能分析
  • 4.5 实验
  • 4.6 本章总结
  • 第5章 一种滑动窗口上概率数据流副本检测的有效算法
  • 5.1 引言
  • 5.2 Floating Counter Bloom Filter
  • 5.3 一种基于FCBF的滑动窗口上概率数据流副本检测算法
  • 5.4 实验
  • 5.5 结论
  • 第6章 基于增量学习型矢量量化的海量文本分类方法
  • 6.1 算法预备知识
  • 6.1.1 学习型矢量量化
  • 6.1.2 生长型神经气
  • 6.2 改进的增量LVQ算法
  • 6.2.1 扩大类间距离和压缩类心样本的学习规则
  • 6.2.2 基于最小化学习误差增量来学习类内样本
  • 6.3 实验分析
  • 6.3.1 评价指标
  • 6.3.2 实验设计
  • 6.3.3 实验结果
  • 6.4 一种简单的算法
  • 6.4.1 与LVQ1的比较
  • 6.4.2 增长机制
  • 6.4.3 学习顺序问题
  • 6.4.4 改进的LVQ1算法
  • 6.4.5 实验
  • 6.5 总结
  • 第7章 总结
  • 7.1 高效数据流处理算法研究
  • 7.2 海量文本分类算法研究
  • 7.3 高效数据流处理算法研究展望
  • 7.4 海量文本分类算法研究展望
  • 参考文献
  • 致谢
  • 在读期间发表的学术论文与取得的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    高效数据流和海量文本处理算法研究
    下载Doc文档

    猜你喜欢