XML及关联规则在Web日志挖掘中的应用研究

XML及关联规则在Web日志挖掘中的应用研究

论文摘要

Web挖掘是数据挖掘领域中一个新兴的研究方向,而Web日志挖掘是其中的一个重要的研究内容。Web日志挖掘是通过将数据挖掘技术应用于Web服务器日志文件,以得到Web用户的访问模式。网站设计人员可以据此来改善站点结构,改进站点性能,从而提高站点的服务质量。本文首先介绍了数据挖掘及Web数据挖掘等的基本概念,然后针对Web日志挖掘,重点研究了Web日志数据预处理技术,关联规则算法在Web日志挖掘领域的应用及一种基于多重评价因素的用户相似度计算方法。本文的工作主要有以下几个方面:1.详细研究和探讨了Web日志数据预处理的整个过程。其中包括:数据清理、站点拓扑识别、页面过滤、用户识别、会话识别、路径补充和事务识别。针对实验数据缺乏引用属性域,提出一种基于站点拓扑结构的路径补充算法;针对日志文件的半结构化特征,提出使用XML存储预处理结果,并给出其详细结构。2.提出了一种FP-growth改进算法,用于挖掘用户频繁访问序列模式。该算法首先构建FS-tree,然后在其上执行挖掘算法,得到所有的用户频繁访问序列。通过实验同现有的其他挖掘算法进行比对,证明了该改进算法的有效性。3.针对Web用户模糊聚类,提出一种基于多重评价因素的用户相似度计算方法,该方法综合考虑了页面次数,页面次序及访问时间等因素来计算用户之间的相似程度,并通过实验计算出各个因素所占的比重,实验结果显示使用该用户相似度计算方法的聚类算法具有更好的聚类效果。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 课题研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文主要工作
  • 1.4 全文组织结构
  • 第2章 WEB数据挖掘及相关概念综述
  • 2.1 数据挖掘概述
  • 2.2 Web数据挖掘概述
  • 2.2.1 Web数据挖掘的分类
  • 2.2.2 Web日志挖掘的步骤
  • 2.3 XML与Web日志挖掘
  • 2.3.1 XML概述
  • 2.3.2 XML在Web日志挖掘中的应用
  • 2.4 本章小结
  • 第3章 WEB日志挖掘的数据预处理
  • 3.1 Web日志文件格式介绍
  • 3.2 Web日志挖掘预处理流程
  • 3.2.1 数据清理
  • 3.2.2 站点拓扑识别
  • 3.2.3 页面过滤
  • 3.2.4 用户识别
  • 3.2.5 会话识别
  • 3.2.6 路径补充
  • 3.2.7 事务识别
  • 3.3 实验结果
  • 3.4 本章小结
  • 第4章 用户频繁访问序列模式挖掘
  • 4.1 频繁模式及关联规则概述
  • 4.2 常用关联规则挖掘算法分析
  • 4.2.1 Apriori算法
  • 4.2.2 FP-growth算法
  • 4.3 基于FP-growth改进算法的用户频繁访问序列挖掘
  • 4.3.1 用户访问序列概述
  • 4.3.2 FP-growth改进算法设计
  • 4.3.3 FP-growth改进算法示例
  • 4.4 同类算法比较及实验分析
  • 4.4.1 同类算法比较
  • 4.4.2 实验环境
  • 4.4.3 实验对比分析
  • 4.5 本章小结
  • 第5章 基于多重评价因素的WEB用户聚类
  • 5.1 聚类分析概述
  • 5.2 Web用户聚类
  • 5.3 Web用户模糊聚类
  • 5.3.1 传统用户相似度计算
  • 5.3.2 基于多重评价因素的用户相似度计算
  • 5.4 模糊聚类算法
  • 5.5 聚类实验及结果分析
  • 5.5.1 聚类有效性指标
  • 5.5.2 调节参数确定
  • 5.5.3 算法比较分析
  • 5.6 本章小结
  • 第6章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].基于云计算的Web日志挖掘模块设计[J]. 电脑与信息技术 2019(02)
    • [2].基于Web日志挖掘的个性化学习资源推荐模型研究[J]. 电脑知识与技术 2018(23)
    • [3].基于日志挖掘的移动搜索用户行为研究综述[J]. 情报理论与实践 2014(03)
    • [4].网络日志挖掘技术探究[J]. 硅谷 2010(14)
    • [5].日志挖掘技术及其应用[J]. 中国新技术新产品 2009(20)
    • [6].基于日志挖掘的电商查询建议方法[J]. 计算机工程与科学 2018(02)
    • [7].基于流程日志挖掘的专家平台设计[J]. 计算机工程 2008(20)
    • [8].基于访问日志挖掘的高校综合信息门户页面推荐研究[J]. 计算技术与自动化 2016(04)
    • [9].Web日志挖掘中的数据预处理研究[J]. 河南科技 2018(19)
    • [10].Web日志挖掘系统研究及设计[J]. 信息与电脑(理论版) 2014(16)
    • [11].基于Web日志的数据挖掘初探[J]. 电脑知识与技术 2010(27)
    • [12].基于聚类算法的电子商务日志挖掘商业智能研究[J]. 中国商贸 2014(01)
    • [13].基于Apriori算法的高校Web日志挖掘系统构建[J]. 中国林业教育 2019(02)
    • [14].基于日志挖掘的移动应用用户访问模型建模技术研究[J]. 计算机科学 2014(11)
    • [15].Web日志挖掘的研究[J]. 数字通信世界 2019(03)
    • [16].基于云计算的大规模网页日志挖掘研究[J]. 电脑知识与技术 2014(28)
    • [17].基于聚类的Web日志挖掘方法探析[J]. 商场现代化 2008(35)
    • [18].浅谈Web日志挖掘技术[J]. 科技致富向导 2010(27)
    • [19].基于Web日志挖掘的策略研究[J]. 电脑知识与技术 2011(31)
    • [20].基于Web日志挖掘的个性化教育系统的研究与实现[J]. 福建电脑 2009(06)
    • [21].Web日志挖掘中事务识别的研究[J]. 广东广播电视大学学报 2009(03)
    • [22].Web日志挖掘在图书馆中的应用探讨[J]. 江西图书馆学刊 2008(03)
    • [23].PUGA:Web日志挖掘模型[J]. 计算机工程与设计 2016(09)
    • [24].Web日志挖掘中的数据预处理研究[J]. 黑龙江科技信息 2014(31)
    • [25].聚类算法在Web日志挖掘中的研究[J]. 物联网技术 2015(07)
    • [26].基于日志挖掘的影像设备云监控系统的设计与应用研究[J]. 中国数字医学 2020(10)
    • [27].Web日志挖掘中的数据预处理技术研究[J]. 科技视界 2014(12)
    • [28].基于Web日志挖掘的个性化服务技术的研究[J]. 网络安全技术与应用 2010(06)
    • [29].Web日志挖掘技术在网络教学平台中的应用研究[J]. 制造业自动化 2009(11)
    • [30].基于SQL Server 2005的Web日志挖掘应用研究[J]. 现代计算机(专业版) 2008(12)

    标签:;  ;  ;  ;  ;  

    XML及关联规则在Web日志挖掘中的应用研究
    下载Doc文档

    猜你喜欢