Web日志挖掘会话识别的研究

论文摘要

Web日志挖掘利用数据挖掘技术分析和挖掘网络日志,获取网站使用情况的有价值模式,应用于个性化服务、网站设计和商业决策等方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用,其中会话识别是主要环节,也是整个过程的基础和关键步骤。本文将对提高会话识别质量进行研究。首先,提出一种会话识别的优化方法。对已经形成的会话在一定条件下进行两种操作:一种是断开同一个会话里的记录;另一种是合并相邻会话之间的相邻记录,形成新会话。构建实验平台,依据会话质量的评估标准,验证新会话的质量。其次,提出一种基于动态时间阈值的会话识别方法。该方法首先选取日志文件中的一段典型日志作为样本,并利用优化方法识别出高质量的会话。然后计算会话的平均持续时间,并确定样本日志在不同时段的会话持续时间阈值。再用这个动态阈值识别整个日志的会话,并通过实验验证所得会话的质量。最后,提出一种基于网页特征的会话识别方法。该方法利用Web内容挖掘技术提取网页的特征,计算关于这些特征的向量。并给出根据向量计算网页之间相关程度的方法。根据日志中相邻记录所代表网页相关度值的波动情况确定会话的边界。

论文目录

摘要

ABSTRACT

第1章绪论

1.1 研究背景

1.2 课题意义

1.3 研究现状

1.4 本文主要内容和结构

第2章数据预处理和会话识别

2.1 数据预处理的关键技术

2.2 会话识别的常用方法及其弊端

2.3 会话识别质量的评估标准

2.4 本章小结

第3章会话识别的优化方法

3.1 引言

3.2 基本思想

3.3 数据结构和算法

3.4 实验分析

3.5 本章小结

第4章基于动态时间阈值的会话识别

4.1 引言

4.2 基本思想

4.3 数据结构和算法

4.4 实验分析

4.5 本章小结

第5章基于网页特征的会话识别

5.1 引言

5.2 相关知识

5.3 基本思想

5.4 基于网页特征的算法描述

5.5 本章小结

结论

参考文献

攻读硕士学位期间承担的科研任务与主要成果

致谢

作者简介

Web日志挖掘会话识别的研究

论文摘要

论文目录

相关论文文献

猜你喜欢