基于粗糙集的Web日志挖掘研究

基于粗糙集的Web日志挖掘研究

论文摘要

不断发展的Internet拉近了人们彼此之间的距离,但是Web上的海量信息却又逐渐地让人们变得无所适从,而这些信息又在不断地增加和改变。因此,运用数据挖掘技术获取用户的访问信息对网站的生存是十分有利的。目前,Web数据挖掘主要集中在文本、超文本文档、链接结构以及Web日志文件的研究上。Web服务器日志文件是整个Web数据挖掘的重要数据来源。日志中非常清楚地记录了网站访问者的浏览行为并反映出各类用户浏览网站的习惯。本文研究并总结了国内外Web日志挖掘的现状并提出了一种利用粗糙集理论生成规则的Web日志挖掘技术。粗糙集理论被当作一种适用于不完整和不确定系统的知识发现的数学工具,在粗糙集理论的基础上,本文深入研究了连续属性的离散化算法以及基于粗糙集理论的几种属性约简算法。关于属性的离散化,本文主要讨论了Na(i|¨)ve Scaler算法、Semi Na(i|¨)ve Scaler算法和逻辑运算与粗糙集理论相结合的离散化算法,并对几种离散化算法做了比较。比较发现针对不同的数据集需要选用不同的离散化算法,而选取不同的算法又会导致后面约简结果产生很大的差异。基于粗糙集理论的属性约简算法的研究是本文的重点。本文主要讨论的约简算法包括:基于差别矩阵和逻辑运算的属性约简算法、具有回溯功能的逻辑差别矩阵约简算法、启发式属性约简算法。同时本文也讨论了各种算法的优缺点。其中具有回溯功能的逻辑差别矩阵约简算法和启发式属性约简算法是本人在基本约简算法的基础上提出的改进算法。最后将提出的启发式约简算法应用于Web日志的处理。其步骤为首先提出Web日志挖掘粗糙集模型;其次通过属性的离散化处理模块得到离散化的属性值;最后进行属性约简得到决策规则。关于离散化处理和规则获取,本文都给出了详细的流程图。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究的背景及意义
  • 1.2 Web数据挖掘的背景及国内外研究现状
  • 1.3 粗糙集数据挖掘研究现状
  • 1.4 本文的主要工作及结构
  • 第2章 Web数据挖掘技术
  • 2.1 概述
  • 2.1.1 Web挖掘面临的挑战
  • 2.1.2 Web挖掘的分类
  • 2.1.3 Web日志挖掘
  • 2.2 预处理
  • 2.2.1 数据净化
  • 2.2.2 用户识别
  • 2.2.3 会话识别
  • 2.2.4 事务识别
  • 2.3 Web使用挖掘的方法
  • 2.3.1 基于云模型的挖掘方法
  • 2.3.2 Apriori方法
  • 2.3.3 频繁路径挖掘算法
  • 2.3.4 基于VPRS模型的兴趣识别方法
  • 2.4 本章小结
  • 第3章 集合论和粗糙集理论
  • 3.1 集合论的基本概念
  • 3.2 粗糙集理论的基本概念
  • 3.2.1 不可分辨关系
  • 3.2.2 近似与粗糙集
  • 3.2.3 知识约简和核
  • 3.2.4 知识表达系统
  • 3.2.5 决策表与差别矩阵
  • 3.2.6 决策规则
  • 3.3 粗糙集与模糊集的比较
  • 3.4 本章小结
  • 第4章 属性约简算法的研究
  • 4.1 连续值属性的离散化
  • 4.1.1 连续值属性离散化的必要性
  • 4.1.2 几种离散化算法的比较
  • 4.2 属性约简算法
  • 4.2.1 一般属性约简算法
  • 4.2.2 基于差别矩阵和逻辑运算的属性约简算法
  • 4.2.3 具有回溯功能的逻辑差别矩阵算法
  • 4.2.4 启发式属性约简算法
  • 4.3 决策表的值约简
  • 4.3.1 一般值约简算法
  • 4.3.2 改进的值约简算法
  • 4.4 实例
  • 4.5 本章小结
  • 第5章 基于粗糙集约简的Web日志挖掘
  • 5.1 数据预处理及特征项的提取
  • 5.2 条件属性集和决策属性集的选取
  • 5.3 属性的离散化处理模块
  • 5.4 属性约简和值约简
  • 5.5 输出决策规则
  • 5.6 实验结果分析
  • 5.7 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 个人简历
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于粗糙集的Web日志挖掘研究
    下载Doc文档

    猜你喜欢