Web访问信息挖掘若干关键技术的研究

Web访问信息挖掘若干关键技术的研究

论文摘要

当前,World Wide Web(简称WWW)正在从深度和广度方面飞速发展着。Internet在前所未有地改变我们的生活。而与此同时,WWW上的一些主要工作,例如Web站点设计、Web服务设计等工作也正变得越来越复杂和繁重。 WWW上存在着海量的Web访问信息。通过对Web访问信息进行有效的数据挖掘,可以获得有关用户访问行为的知识。这些知识可以服务于Web站点的服务提供方和访问者,进而改进Web站点设计以方便用户使用,提高Web服务器的性能,增加个性化服务等。总之,挖掘Web访问信息可以获取非常有价值的潜在信息。 目前,Web访问信息挖掘已经成为国际上一个新兴的重要研究领域,其研究工作具有非常重要的现实意义。 本文首先对Web访问信息的特性进行了系统、全面地归纳与分析,并对当前国内外的相关研究进行了分析与总结。然后在此基础上,对Web访问信息挖掘中的群体性及个性化两个领域进行了研究,主要研究成果为: 1.面向大量用户的群体性领域: 挖掘Web用户访问行为,把具有相似访问倾向的用户分类,提出用户空间模型,其元素为用户群。提出投票选举策略的模糊聚类算法并引入聚类度的概念,基于算法建立了用户空间模型。算法对比模糊C均值聚类算法,不仅在无监督给出类数方面具有较好的鲁棒性,而且得到的收敛中心更稳定,得到的聚类结果与实际需要更相符。用户空间模型是本文对用户群体特性研究的基础。 对群体用户在Web页面上的访问兴趣展开研究,提出混合马尔可夫模型,并将该模型引入到兴趣导航模式发现中,拓展了马尔可夫模型的应用领域。提出基于混合马尔可夫模型的用户群兴趣导航模式发现方法。方法解决了现有的用户导航模式发现方法发现的导航模式只代表了用户通过路径的访问次数,不能反映用户通过路径的访问时间,因此不能更真实地反映用户访问兴趣等问题。基于该模型的兴趣导航模式发现比采用传统马尔可夫模型可以获得更高的预测准确率以及预测覆盖率,能有效地提高用户访问网站的效率。 基于群体用户的访问特性,提出基于用户群的站点自适应模型。在模型中,提出基于放置策略和后退策略的自适应过程,并通过关联规则发现算法发现关联访问集合,将导航页面合理地变成导航访问页面,从而实现站点根据群体用户的访问情况进行自适应。模型的建立可以有效地减少用户的冗余访问。

论文目录

  • 摘要
  • Abstract
  • 图表索引
  • 第一章 绪论
  • 1.1 研究目的及意义
  • 1.1.1 研究目的
  • 1.1.2 研究意义
  • 1.2 研究对象
  • 1.2.1 Web挖掘简介
  • 1.2.2 Web访问信息挖掘简介
  • 1.3 研究的新特点
  • 1.4 本论文的主要贡献
  • 1.5 本文的组织结构
  • 第二章 Web访问信息挖掘研究状况
  • 2.1 国内外研究进展
  • 2.1.1 国外进展研究
  • 2.1.2 国内进展研究
  • 2.2 Web访问信息挖掘研究的6个方面
  • 2.2.1 系统改进
  • 2.2.2 用户建模
  • 2.2.3 发现导航模式
  • 2.2.4 改进站点的访问效率
  • 2.2.5 个性化
  • 2.2.6 商业智能发现
  • 2.3 小结
  • 第三章 预处理研究
  • 3.1 相关概念
  • 3.2 挖掘对象
  • 3.2.1 服务器端访问信息
  • 3.2.2 客户端访问信息
  • 3.3 站点识别
  • 3.4 数据净化
  • 3.5 用户识别
  • 3.6 会话识别
  • 3.6.1 研究概述
  • 3.6.2 会话模型
  • 3.6.3 会话相似度
  • 3.6.4 分割会话
  • 3.6.5 识别访问片断
  • 3.7 实验数据集
  • 3.8 小结
  • 第四章 基于投票选举的用户空间模型
  • 4.1 简介
  • 4.2 模糊聚类
  • 4.3 基于投票选举策略的模糊聚类
  • 4.3.1 投票选举策略
  • 4.3.2 学习
  • 4.4 用户空间模型
  • 4.1.1 用户群
  • 4.1.2 用户空间模型
  • 4.5 性能分析
  • 4.6 小结
  • 第五章 基于混合马尔可夫模型的用户群兴趣导航
  • 5.1 简介
  • 5.2 用户访问兴趣
  • 5.2.1 用户访问页面时间
  • 5.2.2 用户访问关键字
  • 5.2.3 用户群兴趣度
  • 5.3 混合马尔可夫预测模型
  • 5.3.1 马尔可夫模型原型
  • 5.3.2 马尔可夫预测模型
  • 5.3.3 混合马尔可夫预测模型
  • 5.4 用户群兴趣导航
  • 5.5 性能分析
  • 5.6 小结
  • 第六章 基于用户群的站点自适应
  • 6.1 简介
  • 6.2 站点自适应模型
  • 6.2.1 相关定义
  • 6.2.2 自适应模型
  • 6.2.3 自适应过程
  • 6.2.4 系统框架
  • 6.3 性能分析
  • 6.4 小结
  • 第七章 基于改进贝叶斯算法的反馈空间模型
  • 7.1 简介
  • 7.2 反馈空间模型
  • 7.2.1 向量空间模型
  • 7.2.2 改进的贝叶斯算法
  • 7.3 调整页面空间模型
  • 7.4 性能分析
  • 7.5 小结
  • 第八章 基于兴趣聚类的个性化网页推荐
  • 8.1 简介
  • 8.2 聚类挖掘
  • 8.2.1 路径相似度
  • 8.2.2 竞争凝聚
  • 8.2.3 问题求解
  • 8.3 生成推荐集
  • 8.3.1 聚类集发现
  • 8.3.2 合并用户推荐集与页面推荐集
  • 8.4 性能分析
  • 8.5 小结
  • 第九章 原型系统实现和应用
  • 9.1 各方法框架
  • 9.1.1 群体性领域
  • 9.1.2 个性化领域
  • 9.2 集成框架
  • 9.3 原型系统
  • 9.3.1 设计方案
  • 9.3.2 总体结构
  • 9.3.3 原型系统实现
  • 9.3 原型系统应用
  • 9.3.1 应用背景
  • 9.3.2 用户空间建模
  • 9.3.3 用户群兴趣导航模式发现
  • 9.3.4 站点自适应
  • 9.3.5 反馈空间建模
  • 9.3.6 个性化网页推荐
  • 9.3.7 应用成果
  • 9.4 小结
  • 第十章 总结与展望
  • 10.1 论文工作的价值
  • 10.2 论文所作的工作
  • 10.2.1 用户空间模型
  • 10.2.2 用户群兴趣导航
  • 10.2.3 站点自适应
  • 10.2.4 反馈空间模型
  • 10.2.5 个性化网页推荐
  • 10.2.6 原型系统
  • 10.3 方法之间的关系
  • 10.4 方法的时间有效性讨论
  • 10.5 将来的工作
  • 参考文献
  • 攻读博士期间发表的论文
  • 攻读博士学位期间参加的主要科研项目
  • 致谢
  • 相关论文文献

    • [1].基于大数据背景的会计信息挖掘构想[J]. 企业改革与管理 2020(03)
    • [2].基于信息挖掘的模糊语言查询的研究[J]. 湖北师范大学学报(哲学社会科学版) 2020(03)
    • [3].小学数学收集与处理信息能力渗透路径探析[J]. 教书育人 2017(26)
    • [4].大数据背景下网络信息挖掘与情报收集[J]. 湖北警官学院学报 2016(03)
    • [5].浅谈网络信息挖掘[J]. 网络财富 2009(06)
    • [6].网络信息挖掘及其在搜索引擎方面的应用[J]. 微计算机信息 2008(06)
    • [7].网络信息挖掘在电子商务系统中的应用[J]. 电脑知识与技术 2008(22)
    • [8].大数据背景下网络信息挖掘与搜集[J]. 信息与电脑(理论版) 2018(06)
    • [9].在线评论信息挖掘研究综述[J]. 信息资源管理学报 2016(01)
    • [10].搜索引擎在网络信息挖掘中的应用[J]. 电脑知识与技术 2009(27)
    • [11].网络信息挖掘的实践[J]. 科技信息 2009(27)
    • [12].面向城市菜地的地理信息挖掘[J]. 南方农机 2020(10)
    • [13].计算机文本信息挖掘技术在网络安全中的应用研究[J]. 数字通信世界 2020(02)
    • [14].浅谈大数据时代的物流信息挖掘与应用[J]. 广东蚕业 2019(11)
    • [15].深化专利信息挖掘 促进德阳经济高质量发展研究[J]. 科技与创新 2019(08)
    • [16].数据信息挖掘在热工控制过程中的应用[J]. 华北电力技术 2017(04)
    • [17].基于创业者信息挖掘的创业成功倾向分析[J]. 微型电脑应用 2017(05)
    • [18].Multi-Agent系统信息挖掘技术的运用研究[J]. 电子技术与软件工程 2013(24)
    • [19].基于语义上下文分析的因特网人物信息挖掘[J]. 安徽大学学报(自然科学版) 2009(04)
    • [20].专利技术信息挖掘研究进展[J]. 图书馆 2018(04)
    • [21].基于WEB访问信息挖掘提高电子商务个性化服务研究[J]. 商场现代化 2008(20)
    • [22].网络新闻信息挖掘与分析模型的建立与探讨[J]. 计算机与现代化 2012(04)
    • [23].地图信息挖掘的基本理论研究[J]. 测绘科学 2010(01)
    • [24].探讨搜索引擎在网络信息挖掘中的应用[J]. 科技资讯 2009(29)
    • [25].试析大数据分析和信息挖掘的图书馆智慧服务[J]. 科技经济导刊 2019(03)
    • [26].信息挖掘技术在中医继承中的应用现状与展望[J]. 湖北中医杂志 2010(07)
    • [27].媒体信息挖掘与分析师盈余预测准确度——基于管理层业绩预告背景的考察[J]. 会计与经济研究 2019(01)
    • [28].网络信息挖掘在竞争情报工作中的应用[J]. 江苏科技信息 2013(06)
    • [29].Web访问信息挖掘在电子商务个性化服务中的应用研究[J]. 潍坊学院学报 2009(04)
    • [30].浅谈互联网应用数据的建模分析和信息挖掘[J]. 计算机产品与流通 2017(09)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    Web访问信息挖掘若干关键技术的研究
    下载Doc文档

    猜你喜欢