论文摘要
不断发展的Internet拉近了人们彼此之间的距离,但是Web上的海量信息却又逐渐地让人们变得无所适从,而这些信息又在不断地增加和改变。因此,运用数据挖掘技术获取用户的访问信息对网站的生存是十分有利的。目前,Web数据挖掘主要集中在文本、超文本文档、链接结构以及Web日志文件的研究上。Web服务器日志文件是整个Web数据挖掘的重要数据来源。日志中非常清楚地记录了网站访问者的浏览行为并反映出各类用户浏览网站的习惯。本文研究并总结了国内外Web日志挖掘的现状并提出了一种利用粗糙集理论生成规则的Web日志挖掘技术。粗糙集理论被当作一种适用于不完整和不确定系统的知识发现的数学工具,在粗糙集理论的基础上,本文深入研究了连续属性的离散化算法以及基于粗糙集理论的几种属性约简算法。关于属性的离散化,本文主要讨论了Na(i|¨)ve Scaler算法、Semi Na(i|¨)ve Scaler算法和逻辑运算与粗糙集理论相结合的离散化算法,并对几种离散化算法做了比较。比较发现针对不同的数据集需要选用不同的离散化算法,而选取不同的算法又会导致后面约简结果产生很大的差异。基于粗糙集理论的属性约简算法的研究是本文的重点。本文主要讨论的约简算法包括:基于差别矩阵和逻辑运算的属性约简算法、具有回溯功能的逻辑差别矩阵约简算法、启发式属性约简算法。同时本文也讨论了各种算法的优缺点。其中具有回溯功能的逻辑差别矩阵约简算法和启发式属性约简算法是本人在基本约简算法的基础上提出的改进算法。最后将提出的启发式约简算法应用于Web日志的处理。其步骤为首先提出Web日志挖掘粗糙集模型;其次通过属性的离散化处理模块得到离散化的属性值;最后进行属性约简得到决策规则。关于离散化处理和规则获取,本文都给出了详细的流程图。
论文目录
摘要Abstract第1章 绪论1.1 研究的背景及意义1.2 Web数据挖掘的背景及国内外研究现状1.3 粗糙集数据挖掘研究现状1.4 本文的主要工作及结构第2章 Web数据挖掘技术2.1 概述2.1.1 Web挖掘面临的挑战2.1.2 Web挖掘的分类2.1.3 Web日志挖掘2.2 预处理2.2.1 数据净化2.2.2 用户识别2.2.3 会话识别2.2.4 事务识别2.3 Web使用挖掘的方法2.3.1 基于云模型的挖掘方法2.3.2 Apriori方法2.3.3 频繁路径挖掘算法2.3.4 基于VPRS模型的兴趣识别方法2.4 本章小结第3章 集合论和粗糙集理论3.1 集合论的基本概念3.2 粗糙集理论的基本概念3.2.1 不可分辨关系3.2.2 近似与粗糙集3.2.3 知识约简和核3.2.4 知识表达系统3.2.5 决策表与差别矩阵3.2.6 决策规则3.3 粗糙集与模糊集的比较3.4 本章小结第4章 属性约简算法的研究4.1 连续值属性的离散化4.1.1 连续值属性离散化的必要性4.1.2 几种离散化算法的比较4.2 属性约简算法4.2.1 一般属性约简算法4.2.2 基于差别矩阵和逻辑运算的属性约简算法4.2.3 具有回溯功能的逻辑差别矩阵算法4.2.4 启发式属性约简算法4.3 决策表的值约简4.3.1 一般值约简算法4.3.2 改进的值约简算法4.4 实例4.5 本章小结第5章 基于粗糙集约简的Web日志挖掘5.1 数据预处理及特征项的提取5.2 条件属性集和决策属性集的选取5.3 属性的离散化处理模块5.4 属性约简和值约简5.5 输出决策规则5.6 实验结果分析5.7 本章小结结论参考文献攻读硕士学位期间发表的论文和取得的科研成果致谢个人简历
相关论文文献
标签:数据挖掘论文; 日志论文; 粗糙集论文; 离散化论文; 属性约简论文;