论文摘要
信息技术的日新月异使得各个领域的数据量激增,在此背景下诞生的知识发现和数据挖掘给人们提供了一种新的认识数据、理解数据的智能手段。序列模式发现是其中的一个重要研究课题。数据挖掘致力于数据分析和理解、揭示数据内部蕴藏知识,因而在数据存储爆炸性增长的今天,大量潜在的有用信息才得以被提取和发现。近年来,Web应用活跃在社会生活的方方面面,WWW成为了全球最大的信息集散地,然而大量有用信息正被海量数据所吞没。因此将数据挖掘技术应用于Web数据分析的Web挖掘应运而生,且已成为数据挖掘的重要应用之一。根据对Web数据的兴趣度不同,Web挖掘一般分为三大类:一个是Web内容的挖掘;另一个是Web结构的挖掘;还有一个是Web访问模式的挖掘。本文主要是对Web日志挖掘进行研究。对于从Web日志中挖掘出用户的访问序列模式,虽然可以采用常规的序列模式挖掘算法,但是对Web日志进行预处理后,得到的Web日志访问序列模式数据库,在序列的构成和序列的长度上均区别于一般的序列模式数据库。因此为了适应特殊性,提高数据挖掘的效率,Web日志访问序列模式挖掘的算法需要在通用算法上做出作裁剪和增强。目前,Web日志访问序列模式挖掘遇到的挑战是对海量数据挖掘时系统资源的巨大开销。本文研究两个效率比较高的算法Spam和Prefixspan,结合了这二个算法的优点,利用PrefixSpan算法投影数据库的思想,并对Spam算法的位图结构进行压缩,提出了结合两者优点的、适合于Web使用挖掘的Spam_Prefix_Weblog算法,使挖掘效率得到提高。在文章的最后,为了验证Spam_Prefix_Weblog算法的有效性,我们开发了一个测试软件,用该软件对算法进行测试,同时对比传统的Spam算法,证明了Spam_Prefix_Weblog算法在时间效率和空间效率上确实有一定程度的提高。