数据流是目前的一个新兴的热门领域,国内外学者都纷纷提出各种数据流处理的技术、算法和各种具体应用项目。数据流是一个按时间到来的有序的项集。和传统静态数据库中的数据不同的是,数据流是连续的、无限的、通常以很高的速度到来的并且数据分布随着时间而改变。数据流频繁模式挖掘是数据流挖掘基本问题之一,已经引起国内外研究者的广泛关注,提出了许多有效的数据流频繁模式挖掘算法。针对数据流的特点,论文对数据流处理技术和数据流挖掘中的关键问题进行了研究和总结。论文对一些关键问题的解决技术进行了研究。论文对经典的频繁项集挖掘算法进行了介绍和分析。分析可以看出数据流的无限性、高速性使得经典的频繁项集挖掘算法难以适用到数据流中。此外,论文对于当前现存的一些数据流中频繁项集挖掘算法进行了介绍,比较分析和总结,并且设计实现了数据流中挖掘频繁项集的算法FP-stream和Time-Sensitive Sliding Window。本文在上述工作的基础上提出了FP-FT算法,用户通过它可以快速获取最近一个时期内的频繁项集。该算法采用了嵌入了时间窗口的前缀树的结构来存储频繁项集,方便了对数据块中数据项的操作,节约了一定的空间。分析和实验表明,与传统算法相比该算法具有较好的空间和时间效率,适合数据流中频繁项集的挖掘。
本文来源: https://www.lw50.cn/article/e3aa5ebf3397662111624d75.html