序列模式挖掘在Web日志挖掘中应用研究

论文摘要

信息技术的日新月异使得各个领域的数据量激增,在此背景下诞生的知识发现和数据挖掘给人们提供了一种新的认识数据、理解数据的智能手段。序列模式发现是其中的一个重要研究课题。数据挖掘致力于数据分析和理解、揭示数据内部蕴藏知识,因而在数据存储爆炸性增长的今天,大量潜在的有用信息才得以被提取和发现。近年来,Web应用活跃在社会生活的方方面面,WWW成为了全球最大的信息集散地,然而大量有用信息正被海量数据所吞没。因此将数据挖掘技术应用于Web数据分析的Web挖掘应运而生,且已成为数据挖掘的重要应用之一。根据对Web数据的兴趣度不同,Web挖掘一般分为三大类:一个是Web内容的挖掘;另一个是Web结构的挖掘;还有一个是Web访问模式的挖掘。本文主要是对Web日志挖掘进行研究。对于从Web日志中挖掘出用户的访问序列模式,虽然可以采用常规的序列模式挖掘算法,但是对Web日志进行预处理后,得到的Web日志访问序列模式数据库,在序列的构成和序列的长度上均区别于一般的序列模式数据库。因此为了适应特殊性,提高数据挖掘的效率,Web日志访问序列模式挖掘的算法需要在通用算法上做出作裁剪和增强。目前,Web日志访问序列模式挖掘遇到的挑战是对海量数据挖掘时系统资源的巨大开销。本文研究两个效率比较高的算法Spam和Prefixspan,结合了这二个算法的优点,利用PrefixSpan算法投影数据库的思想,并对Spam算法的位图结构进行压缩,提出了结合两者优点的、适合于Web使用挖掘的Spam_Prefix_Weblog算法,使挖掘效率得到提高。在文章的最后,为了验证Spam_Prefix_Weblog算法的有效性,我们开发了一个测试软件,用该软件对算法进行测试,同时对比传统的Spam算法,证明了Spam_Prefix_Weblog算法在时间效率和空间效率上确实有一定程度的提高。

论文目录

摘要

ABSTRACT

1 绪论

1.1 问题的提出

1.2 国内外研究现状

1.2.1 国外的研究现状

1.2.2 国内的研究现状

1.3 本文工作

1.4 章节安排

2 Web 使用挖掘概述

2.1 数据收集

2.2 数据预处理

2.2.1 数据清理

2.2.2 用户识别

2.2.3 会话识别

2.2.4 路径完善

2.3 模式发现和模式分析

2.4 小结

3 序列模式挖掘算法概述

3.1 定义

3.1.1 问题模型

3.1.2 子序列和超序列

3.1.3 支持度和频繁序列

3.1.4 算法概述

3.2 经典序列模式挖掘算法

3.2.1 AprioriAll 算法

3.2.2 GSP 算法

3.2.3 SPADE 算法

3.2.4 SPAM 算法

3.2.5 PrefixSpan 算法

3.3 本章小结

4 Web 日志挖掘与序列模式挖掘

4.1 数据预处理

4.2 Web 序列模式的一些基本概念

4.2.1 问题描述

4.2.2 子序列和超序列

4.2.3 支持度概念

4.2.4 访问模式挖掘

4.2.5 前缀和投影

Prefix 算法'>4.3 Spam_Prefix 算法

Prefix_Weblog 算法'>4.4 Spam_Prefix_Weblog 算法

4.4.1 问题描述

4.4.2 算法描述

4.4.3 算法应用举例

4.4.4 算法效率分析

4.5 本章小结

Prefix_Weblog 算法测试'>5 Spam_Prefix_Weblog 算法测试

5.1 Web 日志预处理模块的设计

5.2 一些数据结构的设计

5.3 时间效率分析

5.4 本章小结

6 总结展望

6.1 总结

6.2 展望

致谢

参考文献

附录

序列模式挖掘在Web日志挖掘中应用研究

论文摘要

论文目录

相关论文文献

猜你喜欢