论文摘要
数据流是目前的一个新兴的热门领域,国内外学者都纷纷提出各种数据流处理的技术、算法和各种具体应用项目。数据流是一个按时间到来的有序的项集。和传统静态数据库中的数据不同的是,数据流是连续的、无限的、通常以很高的速度到来的并且数据分布随着时间而改变。数据流频繁模式挖掘是数据流挖掘基本问题之一,已经引起国内外研究者的广泛关注,提出了许多有效的数据流频繁模式挖掘算法。针对数据流的特点,论文对数据流处理技术和数据流挖掘中的关键问题进行了研究和总结。论文对一些关键问题的解决技术进行了研究。论文对经典的频繁项集挖掘算法进行了介绍和分析。分析可以看出数据流的无限性、高速性使得经典的频繁项集挖掘算法难以适用到数据流中。此外,论文对于当前现存的一些数据流中频繁项集挖掘算法进行了介绍,比较分析和总结,并且设计实现了数据流中挖掘频繁项集的算法FP-stream和Time-Sensitive Sliding Window。本文在上述工作的基础上提出了FP-FT算法,用户通过它可以快速获取最近一个时期内的频繁项集。该算法采用了嵌入了时间窗口的前缀树的结构来存储频繁项集,方便了对数据块中数据项的操作,节约了一定的空间。分析和实验表明,与传统算法相比该算法具有较好的空间和时间效率,适合数据流中频繁项集的挖掘。
论文目录
致谢中文摘要ABSTRACT1 引言1.1 研究背景与意义1.2 国内外研究现状1.2.1 国外研究现状1.2.2 国内的研究现状1.3 本文的贡献1.4 本文的组织结构2 数据挖掘与数据流综述2.1 数据挖掘2.2 数据流2.2.1 数据流的概念及特点2.2.2 数据流技术2.2.3 研究热点2.3 数据流挖掘2.3.1 数据流挖掘的特点2.3.2 数据流频繁项集挖掘及关键问题3 频繁项集挖掘算法3.1 基本概念3.2 经典的频繁项集挖掘算法3.2.1 Apriori算法3.2.2 FP-growth算法3.3 数据流中频繁项集挖掘算法3.3.1 采样算法3.3.2 略图算法3.3.3 滑动窗口算法3.3.4 分段算法3.3.5 相关实验3.4 算法的分析与比较4 数据流频繁项集挖掘FP-FT算法4.1 引言4.2 问题定义4.3 FP-FT算法4.3.1 构造FP-FT树4.3.2 项集的插入和更新算法4.3.3 FP-FT树中失效数据块的处理算法4.3.4 树的剪枝算法4.3.5 完整的FP-FT算法4.3.6 范例4.4 实验结果分析和比较4.5 小结5 总结和展望参考文献学位论文数据集
相关论文文献
标签:数据挖掘论文; 频繁模式论文; 频繁项集论文; 数据流论文; 前缀树论文;