基于关联规则的Web日志挖掘技术研究

基于关联规则的Web日志挖掘技术研究

论文摘要

数据挖掘是从大量的数据集中提取隐含的、事先未知的、并且潜在有用的知识的过程。互联网的发展与快速普及,使得人类真正体会到了数据海洋的无边无际。面对如此巨大的数据资源,人们迫切需要一种新技术和自动工具的帮助,将这巨大的数据资源转换为有用的知识与信息资源。这种技术应不仅能获得数据的表层信息,而且要能在对数据充分理解的基础上获得数据属性的内在关系和隐含信息,即能获得重要的知识。Web挖掘技术为把这种海量的数据转化成有用的信息和知识提供了强有力的手段。本文主要研究如何利用Web挖掘分析日志得到用户对网站的访问模式,据此提出一种能帮助站点所有新老用户提高访问效率的推荐技术,完善站点拓扑结构,以提高站点访问效率。为此,本文主要做了以下几个方面的研究工作:1)为了从Web日志文件内容向各种挖掘算法提供准确的数据源,对Web日志挖掘数据进行预处理工作,并对其中的问题进行了讨论。2)为了提高Web日志预处理质量,讨论了提取网站拓扑结构信息的技术。3)结合Apriori算法,对侯选序列生成进行研究,采用了一种基于图结构的侯选序列生成的算法SCG。4)设计并实现了一个Web日志挖掘原型系统,从而验证了SCG算法可行性和适用性。本文应用Web日志挖掘技术从访问日志中提取用户访问模式,将挖掘到的知识转变为站点的智能。用户访问模式的研究有利于提高站点信息服务质量,促进智能信息处理领域的发展,在理论和实践上都有重要的研究意义。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 问题的提出
  • 1.2 研究现状
  • 1.3 论文研究的主要内容
  • 2 相关概念和技术
  • 2.1 数据挖掘概述
  • 2.1.1 数据挖掘和知识发现
  • 2.1.2 数据挖掘模式
  • 2.2 WEB 挖掘的定义
  • 2.3 WEB 挖掘的分类
  • 2.3.1 Web 内容挖掘
  • 2.3.2 Web 结构挖掘
  • 2.3.3 Web 使用挖掘
  • 2.4 WEB 挖掘的特点
  • 2.5 WEB 挖掘面临的挑战
  • 2.6 本章小结
  • 3 WEB 日志挖掘与数据预处理
  • 3.1 WEB 日志挖掘的数据准备
  • 3.1.1 Web 数据源
  • 3.1.2 数据建模
  • 3.2 WEB 日志预处理
  • 3.2.1 数据清理
  • 3.2.2 用户识别
  • 3.2.3 会话识别
  • 3.2.4 事务识别
  • 3.2.5 格式化
  • 3.3 实验分析
  • 3.4 本章小结
  • 4 用户频繁访问模式的挖掘
  • 4.1 基本概念
  • 4.1.1 关联规则
  • 4.1.2 频繁访问模式
  • 4.2 类APRIORI 算法
  • 4.2.1 Apriori 算法基本思想与算法分析
  • 4.2.2 类Apriori 算法
  • 4.3 基于图结构候选集生成算法SCG
  • 4.3.1 算法的思想及实现
  • 4.3.2 程序框图
  • 4.4 实验分析
  • 4.5 本章小结
  • 5 原型系统设计与实现
  • 5.1 系统功能结构设计
  • 5.2 系统的开发环境
  • 5.3 系统实现
  • 5.3.1 主界面
  • 5.3.2 数据预处理
  • 5.3.3 数据挖掘
  • 5.3.4 挖掘结果及分析
  • 5.4 本章小结
  • 6 总结和展望
  • 6.1 总结
  • 6.2 将来的工作
  • 致谢
  • 参考文献
  • 附录:作者在攻读硕士学位期间发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于关联规则的Web日志挖掘技术研究
    下载Doc文档

    猜你喜欢