基于日志的Web访问信息挖掘

基于日志的Web访问信息挖掘

论文摘要

随着Internet应用的迅速发展,网络上信息迅速增长,信息种类也越来越多,人们面对太多的信息无法选择和消化,此种现象称为信息过载。Internet上信息资源分布的广泛性又给用户寻找感兴趣的信息增加了困难,也就是所谓的信息迷失。如何从这些繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。所以,出现了数据挖掘在Web站点分析中的应用,即Web挖掘。基于日志的Web访问信息挖掘是Web挖掘领域中的一个重要应用研究方向。为用户提供一个不仅内容丰富而且方便使用的优秀网站,以吸引大量的用户,这是每个网站所追求的目标。Web站点能否实现个性化,为用户提供个性化的服务,成为衡量站点能否成功的重要因素。通过挖掘Web日志,发现用户的访问模式,对优化站点结构和为用户提供个性化服务具有重要的意义。本文主要研究了基于Web日志的用户访问模式挖掘,对基于搜索引擎查询日志的协作推荐也进行了一定的研究,主要工作如下:1.Web访问信息挖掘的方法研究。详细的研究和探讨了Web访问信息挖掘的整个过程,包括:数据收集、数据预处理、模式发现、模式分析及应用。2.详述了硬K-均值聚类算法和模糊K-均值聚类算法的基本思想和算法步骤,对模糊K-均值聚类算法中的中心初始化问题进行了较为详细的研究,并提出了一种改进的有效性函数运用于中心初始化中,利用该有效性函数可以有效地发现最优中心数目。3.提出了一种改进的Web用户和URL聚类方法,该算法有效地综合了用户浏览时间和访问次数,并且利用服务器日志进行了实验,证实了该算法的有效性。4.详述了Web搜索引擎推荐中的主题关注度推荐思想。探讨了利用查询日志进行查询关键字的聚类分析,提出了一种改进的相似度函数,并利用人工数据进行了实验验证,证实该相似度函数可以更加准确地运用于关键字凝聚过程。最后,对所做的工作进行了归纳与总结,探讨了将来进一步的研究方向。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景及意义
  • 1.1.1 研究背景
  • 1.1.2 研究意义
  • 1.2 Web挖掘概述
  • 1.2.1 Web内容挖掘
  • 1.2.2 Web结构挖掘
  • 1.2.3 Web访问信息挖掘
  • 1.3 论文的组织结构
  • 1.4 本章小结
  • 2 Web访问信息挖掘
  • 2.1 Web访问信息挖掘的体系结构
  • 2.1.1 Web访问信息挖掘的定义
  • 2.1.2 Web访问信息挖掘的过程
  • 2.1.3 Web访问信息挖掘的数据源
  • 2.2 数据预处理
  • 2.2.1 数据净化
  • 2.2.2 用户识别
  • 2.2.3 会话识别
  • 2.2.4 路径补充
  • 2.2.5 事务识别
  • 2.3 模式挖掘
  • 2.3.1 关联规则挖掘
  • 2.3.2 聚类
  • 2.3.3 分类
  • 2.3.4 序列模式
  • 2.4 模式分析及应用
  • 2.5 本章小结
  • 3 模糊聚类技术
  • 3.1 模糊聚类理论发展
  • 3.2 FKM聚类算法
  • 3.2.1 K均值聚类算法(HKM)介绍
  • 3.2.2 模糊K均值聚类
  • 3.3 中心初始化策略
  • 3.3.1 距离优化法
  • 3.3.2 密度估计法
  • 3.3.3 改进的距离优化法
  • 3.4 类数目的确定
  • 3.4.1 引入信息熵来确定最佳中心数
  • 3.4.2 基于几何结构的有效性函数
  • 3.4.3 权和的有效性函数
  • 3.4.4 一种新的有效性函数
  • 3.5 本章小结
  • 4 基于访问日志的个性化推荐
  • 4.1 引言
  • 4.2 日志的预处理
  • 4.2.1 所用日志示例
  • 4.2.2 用户事务集合
  • 4.2.3 浏览时间的离散化
  • 4.2.4 用户浏览矩阵和用户点击矩阵
  • 4.3 用户聚类和URL聚类
  • 4.3.1 带属性权重的欧氏距离
  • 4.3.2 页面权重
  • 4.3.3 用户权重
  • 4.4 聚类中心数目的确定
  • 4.4.1 抽样
  • 4.4.2 等价事务和事务约减
  • 4.4.3 全局搜索
  • 4.5 实验结果
  • 4.6 本章小结
  • 5 基于查询日志的协作推荐
  • 5.1 引言
  • 5.2 体系结构
  • 5.3 访问日志与查询日志
  • 5.4 基于主题关注度的推荐算法
  • 5.4.1 相关工作
  • 5.4.2 主题关注度推荐算法
  • 5.5 基于查询日志的推荐算法
  • 5.5.1 两种不同类型的聚类算法
  • 5.5.2 基于图的迭代聚类算法
  • 5.5.3 改进的相似性函数
  • 5.5.4 实验及结果分析
  • 5.6 本章小结
  • 6 总结
  • 6.1 本文工作总结
  • 6.2 进一步工作展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].基于大数据背景的会计信息挖掘构想[J]. 企业改革与管理 2020(03)
    • [2].基于信息挖掘的模糊语言查询的研究[J]. 湖北师范大学学报(哲学社会科学版) 2020(03)
    • [3].小学数学收集与处理信息能力渗透路径探析[J]. 教书育人 2017(26)
    • [4].大数据背景下网络信息挖掘与情报收集[J]. 湖北警官学院学报 2016(03)
    • [5].浅谈网络信息挖掘[J]. 网络财富 2009(06)
    • [6].网络信息挖掘及其在搜索引擎方面的应用[J]. 微计算机信息 2008(06)
    • [7].网络信息挖掘在电子商务系统中的应用[J]. 电脑知识与技术 2008(22)
    • [8].大数据背景下网络信息挖掘与搜集[J]. 信息与电脑(理论版) 2018(06)
    • [9].在线评论信息挖掘研究综述[J]. 信息资源管理学报 2016(01)
    • [10].搜索引擎在网络信息挖掘中的应用[J]. 电脑知识与技术 2009(27)
    • [11].网络信息挖掘的实践[J]. 科技信息 2009(27)
    • [12].面向城市菜地的地理信息挖掘[J]. 南方农机 2020(10)
    • [13].计算机文本信息挖掘技术在网络安全中的应用研究[J]. 数字通信世界 2020(02)
    • [14].浅谈大数据时代的物流信息挖掘与应用[J]. 广东蚕业 2019(11)
    • [15].深化专利信息挖掘 促进德阳经济高质量发展研究[J]. 科技与创新 2019(08)
    • [16].数据信息挖掘在热工控制过程中的应用[J]. 华北电力技术 2017(04)
    • [17].基于创业者信息挖掘的创业成功倾向分析[J]. 微型电脑应用 2017(05)
    • [18].Multi-Agent系统信息挖掘技术的运用研究[J]. 电子技术与软件工程 2013(24)
    • [19].基于语义上下文分析的因特网人物信息挖掘[J]. 安徽大学学报(自然科学版) 2009(04)
    • [20].专利技术信息挖掘研究进展[J]. 图书馆 2018(04)
    • [21].基于WEB访问信息挖掘提高电子商务个性化服务研究[J]. 商场现代化 2008(20)
    • [22].网络新闻信息挖掘与分析模型的建立与探讨[J]. 计算机与现代化 2012(04)
    • [23].地图信息挖掘的基本理论研究[J]. 测绘科学 2010(01)
    • [24].探讨搜索引擎在网络信息挖掘中的应用[J]. 科技资讯 2009(29)
    • [25].试析大数据分析和信息挖掘的图书馆智慧服务[J]. 科技经济导刊 2019(03)
    • [26].信息挖掘技术在中医继承中的应用现状与展望[J]. 湖北中医杂志 2010(07)
    • [27].媒体信息挖掘与分析师盈余预测准确度——基于管理层业绩预告背景的考察[J]. 会计与经济研究 2019(01)
    • [28].网络信息挖掘在竞争情报工作中的应用[J]. 江苏科技信息 2013(06)
    • [29].Web访问信息挖掘在电子商务个性化服务中的应用研究[J]. 潍坊学院学报 2009(04)
    • [30].浅谈互联网应用数据的建模分析和信息挖掘[J]. 计算机产品与流通 2017(09)

    标签:;  ;  ;  ;  ;  

    基于日志的Web访问信息挖掘
    下载Doc文档

    猜你喜欢