Web日志挖掘中数据预处理算法的研究及实现

Web日志挖掘中数据预处理算法的研究及实现

论文摘要

Internet的迅猛发展,尤其是Web的全球普及,使得Web上信息量无比丰富。通过对Web的挖掘,可从Web页面中提取所需的知识:对总的用户访问行为、频度、内容的分析,可得到关于群体用户访问行为和方式的普遍知识,用以改进Web服务设计。更重用的是,通过对这些用户特征的理解和分析,有助于开展有针对性的电子商务活动。随着数据挖掘和万维网技术的结合,使得从收集到的访问Internet网页的网站日志记录中进行数据挖掘成为可能。将数据挖掘技术应用于Web日志记录,来发现用户访问Web页面的模式,便形成了Web访问模式挖掘。它对于优化站点结构、为不同类别的用户提供个性化服务,有效地实现信息获取和信息推送是非常必要的。Web访问模式挖掘是目前数据挖掘领域的热点课题之一,也是Web日志挖掘的主要目标之一,本文的研究目的是发现更多有意义的序列模式。本文系统地阐述了从数据挖掘、Web数据挖掘到Web日志挖掘整个过程。通过对基于Web日志的数据挖掘的讨论,说明如何进行Web日志挖掘以及在Web日志挖掘中应采取的数据挖掘技术。针对多页面结构的站点会降低挖掘结果的兴趣性,本文提出了Web日志数据预处理的改进算法—Frame页面过滤算法,实验结果表明,通过过滤用户会话文件中非用户点击产生的subframe页面请求,可以提高日志挖掘结果的兴趣性。

论文目录

  • 摘要:
  • ABSTRACT:
  • 第一章 前言
  • 1.1 研究背景
  • 1.2 研究目的和意义
  • 1.3 国内外研究现状
  • 1.4 本文的工作
  • 第二章 Web日志挖掘
  • 2.1 数据挖掘
  • 2.1.1 数据挖掘的背景
  • 2.1.2 数据挖掘的定义
  • 2.1.3 国内外数据挖掘的研究现状
  • 2.2 Web数据挖掘
  • 2.2.1 Web技术的历史与发展
  • 2.2.2 Web数据挖掘提出的背景
  • 2.2.3 Web数据挖掘的定义
  • 2.2.4 Web数据挖掘研究分类
  • 2.2.5 Web挖掘特点与难点
  • 2.3 Web日志挖掘研究
  • 2.3.1 Web日志挖掘的定义
  • 2.3.2 Web日志的内容
  • 2.3.3 Web使用记录挖掘的基本流程
  • 2.3.4 Web日志挖掘的难点
  • 第三章 Web日志挖掘中的数据预处理
  • 3.1 数据预处理
  • 3.1.1 预处理数据的重要性
  • 3.1.2 数据预处理技术
  • 3.2 Web日志基础知识
  • 3.2.1 用户Web访问过程
  • 3.2.2 术语解释
  • 3.2.3 Web服务器日志格式
  • 3.3 Web日志预处理过程
  • 3.3.1 数据清理
  • 3.3.2 用户识别
  • 3.3.3 会话识别
  • 3.3.4 路径补充
  • 3.3.5 事务识别
  • 3.4 小结
  • 第四章 Web日志挖掘中的数据预处理算法的改进
  • 3.1 Web日志挖掘中的数据预处理概论
  • 3.1.1 Web日志挖掘的体系结构
  • 3.1.2 Web日志挖掘系统的预处理过程
  • 3.2 Web日志挖掘中的事务识别
  • 3.3 改进的Frame页面过滤算法
  • 3.3.1 改进的数据预处理过程
  • 3.3.2 Frame页面过滤算法实现
  • 3.3.3 改进的Frame页面过滤算法
  • 3.3.4 算法实施的试验结果比较
  • 第五章 结束语
  • 致谢
  • 主要参考文献
  • 八、附录
  • 相关论文文献

    • [1].基于云计算的Web日志挖掘模块设计[J]. 电脑与信息技术 2019(02)
    • [2].基于Web日志挖掘的个性化学习资源推荐模型研究[J]. 电脑知识与技术 2018(23)
    • [3].基于日志挖掘的移动搜索用户行为研究综述[J]. 情报理论与实践 2014(03)
    • [4].网络日志挖掘技术探究[J]. 硅谷 2010(14)
    • [5].日志挖掘技术及其应用[J]. 中国新技术新产品 2009(20)
    • [6].基于日志挖掘的电商查询建议方法[J]. 计算机工程与科学 2018(02)
    • [7].基于流程日志挖掘的专家平台设计[J]. 计算机工程 2008(20)
    • [8].基于访问日志挖掘的高校综合信息门户页面推荐研究[J]. 计算技术与自动化 2016(04)
    • [9].Web日志挖掘中的数据预处理研究[J]. 河南科技 2018(19)
    • [10].Web日志挖掘系统研究及设计[J]. 信息与电脑(理论版) 2014(16)
    • [11].基于Web日志的数据挖掘初探[J]. 电脑知识与技术 2010(27)
    • [12].基于聚类算法的电子商务日志挖掘商业智能研究[J]. 中国商贸 2014(01)
    • [13].基于Apriori算法的高校Web日志挖掘系统构建[J]. 中国林业教育 2019(02)
    • [14].基于日志挖掘的移动应用用户访问模型建模技术研究[J]. 计算机科学 2014(11)
    • [15].Web日志挖掘的研究[J]. 数字通信世界 2019(03)
    • [16].基于云计算的大规模网页日志挖掘研究[J]. 电脑知识与技术 2014(28)
    • [17].基于聚类的Web日志挖掘方法探析[J]. 商场现代化 2008(35)
    • [18].浅谈Web日志挖掘技术[J]. 科技致富向导 2010(27)
    • [19].基于Web日志挖掘的策略研究[J]. 电脑知识与技术 2011(31)
    • [20].基于Web日志挖掘的个性化教育系统的研究与实现[J]. 福建电脑 2009(06)
    • [21].Web日志挖掘中事务识别的研究[J]. 广东广播电视大学学报 2009(03)
    • [22].Web日志挖掘在图书馆中的应用探讨[J]. 江西图书馆学刊 2008(03)
    • [23].PUGA:Web日志挖掘模型[J]. 计算机工程与设计 2016(09)
    • [24].Web日志挖掘中的数据预处理研究[J]. 黑龙江科技信息 2014(31)
    • [25].聚类算法在Web日志挖掘中的研究[J]. 物联网技术 2015(07)
    • [26].基于日志挖掘的影像设备云监控系统的设计与应用研究[J]. 中国数字医学 2020(10)
    • [27].Web日志挖掘中的数据预处理技术研究[J]. 科技视界 2014(12)
    • [28].基于Web日志挖掘的个性化服务技术的研究[J]. 网络安全技术与应用 2010(06)
    • [29].Web日志挖掘技术在网络教学平台中的应用研究[J]. 制造业自动化 2009(11)
    • [30].基于SQL Server 2005的Web日志挖掘应用研究[J]. 现代计算机(专业版) 2008(12)

    标签:;  ;  ;  ;  

    Web日志挖掘中数据预处理算法的研究及实现
    下载Doc文档

    猜你喜欢