Web日志挖掘技术应用研究

Web日志挖掘技术应用研究

论文摘要

随着互联网的迅速普及和广泛应用,Web上产生的信息也随之飞速增长,如何从浩瀚的资料中挖掘出有价值的信息,受到各方面的关注。Web网站无论是在访问量、规模上还是在网站设计的复杂度上都以惊人的速度增长着。像Web站点设计、Web服务设计和一些通过Web网站进行简单的导航模式设计也都增大了设计的难度。为了更好地设计Web服务器,一个更好的方式就是分析原来的网站是如何被利用的。日志数据的分析可以通过统计数据的形式,像统计经常被访问的页面集、统计经常需要分析的重要的表格数据、通过网站分析找出一般的访问路径模式等。Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,从而解决上面提出的各种问题。本文在简述了Web日志挖掘的概念、研究内容、关键技术和目前的国内外研究状况的基础上,针对我校网站的访问日志,采用数据挖掘技术进行数据分析,从而找出用户访问规律和内容喜好,为改进网站结构和内容提供了决策支持。论文所做的主要工作是:首先对Web日志的预处理进行了研究,给出了预处理的流程并分析了其中的难点,包括数据清理、会话识别、用户识别和片断识别,并尝试将其用到我校网站的挖掘之中;其次对基于FP-tree的关联规则挖掘算法进行了研究,然后将其用到我校网站的挖掘之中,并依据挖掘结果给出针对该网站的改进建议;最后对路径遍历模式挖掘进行了研究,将其用到我校网站的挖掘之中,并依据挖掘结果给出针对该网站的改进建议。

论文目录

  • 摘要
  • 英文摘要
  • 第一章 引言
  • 1.1 Web日志挖掘的研究背景
  • 1.2 Web日志挖掘的研究意义
  • 1.3 Web日志挖掘的研究现状
  • 1.4 论文的组织
  • 第二章 Web挖掘技术
  • 2.1 数据挖掘和Web挖掘
  • 2.1.1 数据挖掘
  • 2.1.2 Web挖掘
  • 2.1.3 Web挖掘分类
  • 2.2 web日志挖掘
  • 2.2.1 Web日志挖掘的应用
  • 2.2.2 Web日志挖掘的过程
  • 2.2.3 Web日志挖掘的分析方法
  • 第三章 Web日志预处理技术
  • 3.1 Web日志介绍
  • 3.2 基本概念
  • 3.3 Web日志预处理方法
  • 3.3.1 数据清理
  • 3.3.2 用户识别
  • 3.3.3 会话识别
  • 3.3.4 片断识别
  • 3.3.5 应用举例
  • 第四章 关联规则挖掘
  • 4.1 关联规则的相关概念
  • 4.2 FP-growth算法
  • 4.2.1 构造频繁模式树
  • 4.2.2 挖掘频繁项目集
  • 4.2.3 发现关联规则
  • 4.3 应用举例
  • 4.3.1 构造频繁模式树
  • 4.3.2 挖掘频繁项目集
  • 4.3.3 发现关联规则
  • 4.3.4 结果分析
  • 第五章 路径遍历模式挖掘
  • 5.1 相关定义描述
  • 5.2 挖掘的基本步骤
  • 5.3 类Apriori算法
  • 5.4 应用举例
  • 5.4.1 产生最大向前引用
  • 5.4.2 产生大引用序列
  • 5.4.3 确定最大引用序列(频繁遍历路径)
  • 5.4.4 结果分析
  • 结论
  • 致谢
  • 参考文献
  • 附录 攻读学位期间所发表的学术论文目录
  • 相关论文文献

    标签:;  ;  ;  ;  

    Web日志挖掘技术应用研究
    下载Doc文档

    猜你喜欢