Web日志挖掘技术应用研究

论文摘要

随着互联网的迅速普及和广泛应用,Web上产生的信息也随之飞速增长,如何从浩瀚的资料中挖掘出有价值的信息,受到各方面的关注。Web网站无论是在访问量、规模上还是在网站设计的复杂度上都以惊人的速度增长着。像Web站点设计、Web服务设计和一些通过Web网站进行简单的导航模式设计也都增大了设计的难度。为了更好地设计Web服务器,一个更好的方式就是分析原来的网站是如何被利用的。日志数据的分析可以通过统计数据的形式,像统计经常被访问的页面集、统计经常需要分析的重要的表格数据、通过网站分析找出一般的访问路径模式等。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,从而解决上面提出的各种问题。本文在简述了Web日志挖掘的概念、研究内容、关键技术和目前的国内外研究状况的基础上,针对我校网站的访问日志,采用数据挖掘技术进行数据分析,从而找出用户访问规律和内容喜好,为改进网站结构和内容提供了决策支持。论文所做的主要工作是:首先对Web日志的预处理进行了研究,给出了预处理的流程并分析了其中的难点,包括数据清理、会话识别、用户识别和片断识别,并尝试将其用到我校网站的挖掘之中;其次对基于FP-tree的关联规则挖掘算法进行了研究,然后将其用到我校网站的挖掘之中,并依据挖掘结果给出针对该网站的改进建议;最后对路径遍历模式挖掘进行了研究,将其用到我校网站的挖掘之中,并依据挖掘结果给出针对该网站的改进建议。

论文目录

摘要

英文摘要

第一章引言

1.1 Web日志挖掘的研究背景

1.2 Web日志挖掘的研究意义

1.3 Web日志挖掘的研究现状

1.4 论文的组织

第二章 Web挖掘技术

2.1 数据挖掘和Web挖掘

2.1.1 数据挖掘

2.1.2 Web挖掘

2.1.3 Web挖掘分类

2.2 web日志挖掘

2.2.1 Web日志挖掘的应用

2.2.2 Web日志挖掘的过程

2.2.3 Web日志挖掘的分析方法

第三章 Web日志预处理技术

3.1 Web日志介绍

3.2 基本概念

3.3 Web日志预处理方法

3.3.1 数据清理

3.3.2 用户识别

3.3.3 会话识别

3.3.4 片断识别

3.3.5 应用举例

第四章关联规则挖掘

4.1 关联规则的相关概念

4.2 FP-growth算法

4.2.1 构造频繁模式树

4.2.2 挖掘频繁项目集

4.2.3 发现关联规则

4.3 应用举例

4.3.1 构造频繁模式树

4.3.2 挖掘频繁项目集

4.3.3 发现关联规则

4.3.4 结果分析

第五章路径遍历模式挖掘

5.1 相关定义描述

5.2 挖掘的基本步骤

5.3 类Apriori算法

5.4 应用举例

5.4.1 产生最大向前引用

5.4.2 产生大引用序列

5.4.3 确定最大引用序列（频繁遍历路径）

5.4.4 结果分析

结论

致谢

参考文献

附录攻读学位期间所发表的学术论文目录

Web日志挖掘技术应用研究

论文摘要

论文目录

相关论文文献

猜你喜欢