基于MarKov链的Web访问序列挖掘算法研究

基于MarKov链的Web访问序列挖掘算法研究

论文摘要

网络在人们的日常生活中扮演着越来越重要的角色,以用户的行为为依据来对网站进行改进,提高网站可用性,有着广泛的研究和应用空间。本文研究基于Markov链的Web访问序列模式挖掘算法,通过对日志文件挖掘分析发现用户的行为模式,预测用户对网页的访问模式,从而针对用户群提供个性化服务。本文通过对分析网站可用性及Web日志挖掘现状的基础上,提出了一种基于Markov链和改进的PrefixSpan序列模式挖掘算法。论文首先对序列模式挖掘的经典挖掘算法和研究现状进行了深入调查分析,讨论了序列模式挖掘算法用于Web挖掘存在的问题。然后,论文在详细讨论Markov链的性质及应用的基础上,提出了基于Markov链的Web访问分析方法。在此基础上,论文进一步研究了基于Markov链的改进序列模式挖掘算法,算法通过Markov的正向一步、逆向转移概率矩阵来构造序列数据库,并通过隔层投影和伪投影相结合的PrefixSpan算法对此数据库进行挖掘。论文最后对算法的性能进行了分析,并通过实例验证了算法的有效性。与经典的序列模式挖掘算法相比,论文提出的算法虽然计算准确度差一点,但是在效率上有较大的优势,从而能够更好地为网站特定用户群提供个性化服务,提高网站的可用性。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 研究背景与意义
  • 1.2 国内外研究水平与现状
  • 1.2.1 可用性的含义
  • 1.2.2 网站可用性
  • 1.2.3 Web日志挖掘
  • 1.3 研究内容
  • 1.4 论文组织结构
  • 第二章 序列模式挖掘
  • 2.1 概述
  • 2.2 经典序列模式挖掘算法
  • 2.2.1 序列模式挖掘的一般算法
  • 2.2.2 基于正则表达式约束的算法
  • 2.2.3 多维序列模式挖掘算法
  • 2.2.4 增式序列模式挖掘算法
  • 2.2.5 其它扩展研究
  • 2.3 序列模式挖掘的研究与应用
  • 2.4 本章小结
  • 第三章 基于 Markov链的 Web访问分析
  • 3.1 Web访问分析问题描述
  • 3.2 Markov链
  • 3.2.1 Markov链基本概念
  • 3.2.2 Markov链性质
  • 3.2.3 Markov链应用
  • 3.3 基于 Markov链的 Web访问分析
  • 3.3.1 Markov访问分析的基本概念
  • 3.3.2 Markov的分析过程
  • 3.4 本章小结
  • 第四章 基于 MarKov链的Web访问序列挖掘算法
  • 4.1 引言
  • 4.2 GSP算法序列挖掘过程
  • 4.3 PrefixSpan序列模式挖掘算法
  • 4.3.1 PrefixSpan算法描述
  • 4.3.2 PrefixSpan算法存在的问题
  • 4.4 PrefixSpan算法改进
  • 4.4.1 隔层投影
  • 4.4.2 伪投影方法
  • 4.4.3 算法的结合
  • 4.5 基于 Markov链的序列模式挖掘算法
  • 4.6 本章小结
  • 第五章 算法性能的评价
  • 5.1 性能评价指标
  • 5.1.1 准确度评价指标
  • 5.1.2 时间和空间复杂度
  • 5.2 算法性能比较
  • 5.2.1 时间复杂度比较
  • 5.2.2 空间复杂度比较
  • 5.2.3 准确度分析
  • 5.2.4 结论
  • 5.3 网站应用实例
  • 5.3.1 网站访问数据预处理
  • 5.3.2 算法应用过程描述
  • 5.3.3 网站可用性分析及改造
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 研究工作总结
  • 6.2 后期工作展望
  • 参考文献
  • 致谢
  • 攻读学位期间公开发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于MarKov链的Web访问序列挖掘算法研究
    下载Doc文档

    猜你喜欢