论文摘要
Web日志挖掘利用数据挖掘技术分析和挖掘网络日志,获取网站使用情况的有价值模式,应用于个性化服务、网站设计和商业决策等方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用,其中会话识别是主要环节,也是整个过程的基础和关键步骤。本文将对提高会话识别质量进行研究。首先,提出一种会话识别的优化方法。对已经形成的会话在一定条件下进行两种操作:一种是断开同一个会话里的记录;另一种是合并相邻会话之间的相邻记录,形成新会话。构建实验平台,依据会话质量的评估标准,验证新会话的质量。其次,提出一种基于动态时间阈值的会话识别方法。该方法首先选取日志文件中的一段典型日志作为样本,并利用优化方法识别出高质量的会话。然后计算会话的平均持续时间,并确定样本日志在不同时段的会话持续时间阈值。再用这个动态阈值识别整个日志的会话,并通过实验验证所得会话的质量。最后,提出一种基于网页特征的会话识别方法。该方法利用Web内容挖掘技术提取网页的特征,计算关于这些特征的向量。并给出根据向量计算网页之间相关程度的方法。根据日志中相邻记录所代表网页相关度值的波动情况确定会话的边界。