Web挖掘的网络拓扑结构更新研究

Web挖掘的网络拓扑结构更新研究

论文摘要

20世纪90年代以来,Internet得到了的飞速发展,成为人们工作与学习的平台。WWW作为最大的信息集散地,更是积聚了海量的信息。网络由此被认为是人类史上的第四次工业革命。如何从数以亿计的页面中发现需要的内容,如何从大量的访问中发现有用的信息成为人们迫切希望解决的问题。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。数据挖掘(Data Mining),是指从大型数据库或数据仓库中提取隐含的、未知的及有潜在应用价值的信息或模式。它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。Web挖掘为人工智能领域中数据挖掘技术的一个热点,它实现对Web存取模式、Web结构和规则,以及动态的Web内容的查找功能,是一个更具挑战性的课题。Web使用挖掘就是从服务器日志文件和客户交易数据中挖掘有意义的用户访问模式和潜在的客户群,使企业能够提供个性化信息服务和开展有针对性的电子商务活动。随着越来越多的业务在互联网上开展,用户使用Web的规律成了各企业共同关注的一大热点。因此,采用Web挖掘智能地、自动地提取出了有价值的知识,构建自适应网站,提高WWW的效率,具有十分重要的现实意义和广阔的应用前景。本文研究的主要内容是基于Web使用挖掘,应用其对网站拓扑结构进行更新研究。首先介绍了数据挖掘的一些基本概念、方法、技术。阐明了什么是数据挖掘、为什么要数据挖掘、如何进行数据挖掘、数据挖掘的主要过程、分类。并介绍了数据挖掘的发展情况、应用。然后,本文对Web数据挖掘的特点作了分析和研究。在讨论Web日志挖掘问题的困难与现状的基础上,根据日志挖掘的特点和方法,着重提出了一种能自适应改变网站链接拓扑结构的PCWS模型,由预处理(Preprocessing)、分类器(Classifier)、监视器(Watcher)、网页合成器(Synthesizer)四部分组成。它充分地利用了现有的各项技术,可以自适应不同的用户群,以简便用户访问网页。最后,具体介绍了利用该模型进行日志文件预处理,用户识别,会话识别,挖掘用户路径和序列模式识别的方法,并给出试验结果。目前,针对模型进行了初步的实现,效果良好,达到了预期的学习和实践的目的,为进一步研究Web挖掘奠定了基础。

论文目录

  • 中文摘要
  • 英文摘要
  • 1 绪论
  • 1.1 研究的背景与研究意义
  • 1.1.1 国外的研究现状
  • 1.1.2 国内的研究现状
  • 1.2 研究目标及本文结构
  • 2 数据挖掘技术概述
  • 2.1 数据挖掘的定义
  • 2.2 数据挖掘的过程与功能
  • 2.3 数据挖掘的任务及模式
  • 2.4 数据挖掘应用
  • 2.4.1 数据挖掘解决的典型商业问题
  • 2.4.2 数据挖掘在市场营销的应用
  • 2.4.3 成功案例
  • 2.5 数据挖掘系统
  • 2.6 本章小节
  • 3 Web 数据挖掘技术
  • 3.1 Web 挖掘的定义
  • 3.2 Web 挖掘的分类
  • 3.2.1 Web 内容挖掘
  • 3.2.2 Web 结构挖掘
  • 3.2.3 日志挖掘
  • 3.3 Web 挖掘一般过程
  • 3.4 Web 数据挖掘的难点
  • 3.5 本章小节
  • 4 Web 日志挖掘技术
  • 4.1 Web 日志挖掘的过程
  • 4.1.1 数据预处理
  • 4.1.2 挖掘算法的实施阶段
  • 4.1.3 模式分析阶段
  • 4.2 Web 日志挖掘的常用算法
  • 4.3 Web 日志挖掘的困难
  • 4.4 本章小节
  • 5 Web 站点挖掘系统设计
  • 5.1 Web 站点需求分析
  • 5.1.1 需求的产生
  • 5.1.2 系统需求初步分析
  • 5.2 基于Web 日志挖掘的自适应网站模型
  • 5.2.1 PCWS 模型功能介绍
  • 5.2.2 网站使用数据的预处理
  • 5.2.3 分类器(Classifier)
  • 5.2.4 监视器(Watcher)
  • 5.2.5 网页合成器(Synthesizer)
  • 5.3 数据预处理方法
  • 5.3.1 日志记录的内容
  • 5.3.2 数据清理
  • 5.3.3 用户识别
  • 5.3.4 会话识别
  • 5.3.5 事务识别
  • 5.3.6 路径分析
  • 5.4 分类器与监视器的设计方法
  • 5.4.1 分类器设计方法
  • 5.4.2 监视器设计方法
  • 5.5 网页合成器的设计
  • 5.6 本章小节
  • 6 系统实现与应用
  • 6.1 系统实现环境描述
  • 6.1.1 系统开发环境
  • 6.1.2 ASP 与数据库
  • 6.1.3 日志数据收集
  • 6.2 网站数据预处理实现
  • 6.2.1 数据清理
  • 6.2.2 用户与会话识别
  • 6.2.3 事务识别与路径补充
  • 6.3 相关分类器的实现
  • 6.4 监视器的实现
  • 6.5 网页合成器的实现
  • 6.6 实验结果分析
  • 6.7 本章小节
  • 7 结语
  • 致谢
  • 参考文献
  • 独创性声明
  • 学位论文版权使用授权书
  • 相关论文文献

    • [1].基于云计算的Web日志挖掘模块设计[J]. 电脑与信息技术 2019(02)
    • [2].基于Web日志挖掘的个性化学习资源推荐模型研究[J]. 电脑知识与技术 2018(23)
    • [3].基于日志挖掘的移动搜索用户行为研究综述[J]. 情报理论与实践 2014(03)
    • [4].网络日志挖掘技术探究[J]. 硅谷 2010(14)
    • [5].日志挖掘技术及其应用[J]. 中国新技术新产品 2009(20)
    • [6].基于日志挖掘的电商查询建议方法[J]. 计算机工程与科学 2018(02)
    • [7].基于流程日志挖掘的专家平台设计[J]. 计算机工程 2008(20)
    • [8].基于访问日志挖掘的高校综合信息门户页面推荐研究[J]. 计算技术与自动化 2016(04)
    • [9].Web日志挖掘中的数据预处理研究[J]. 河南科技 2018(19)
    • [10].Web日志挖掘系统研究及设计[J]. 信息与电脑(理论版) 2014(16)
    • [11].基于Web日志的数据挖掘初探[J]. 电脑知识与技术 2010(27)
    • [12].基于聚类算法的电子商务日志挖掘商业智能研究[J]. 中国商贸 2014(01)
    • [13].基于Apriori算法的高校Web日志挖掘系统构建[J]. 中国林业教育 2019(02)
    • [14].基于日志挖掘的移动应用用户访问模型建模技术研究[J]. 计算机科学 2014(11)
    • [15].Web日志挖掘的研究[J]. 数字通信世界 2019(03)
    • [16].基于云计算的大规模网页日志挖掘研究[J]. 电脑知识与技术 2014(28)
    • [17].基于聚类的Web日志挖掘方法探析[J]. 商场现代化 2008(35)
    • [18].浅谈Web日志挖掘技术[J]. 科技致富向导 2010(27)
    • [19].基于Web日志挖掘的策略研究[J]. 电脑知识与技术 2011(31)
    • [20].基于Web日志挖掘的个性化教育系统的研究与实现[J]. 福建电脑 2009(06)
    • [21].Web日志挖掘中事务识别的研究[J]. 广东广播电视大学学报 2009(03)
    • [22].Web日志挖掘在图书馆中的应用探讨[J]. 江西图书馆学刊 2008(03)
    • [23].PUGA:Web日志挖掘模型[J]. 计算机工程与设计 2016(09)
    • [24].Web日志挖掘中的数据预处理研究[J]. 黑龙江科技信息 2014(31)
    • [25].聚类算法在Web日志挖掘中的研究[J]. 物联网技术 2015(07)
    • [26].Web日志挖掘中的数据预处理技术研究[J]. 科技视界 2014(12)
    • [27].基于Web日志挖掘的个性化服务技术的研究[J]. 网络安全技术与应用 2010(06)
    • [28].Web日志挖掘技术在网络教学平台中的应用研究[J]. 制造业自动化 2009(11)
    • [29].基于SQL Server 2005的Web日志挖掘应用研究[J]. 现代计算机(专业版) 2008(12)
    • [30].Web日志挖掘技术研究[J]. 光盘技术 2008(04)

    标签:;  ;  ;  ;  

    Web挖掘的网络拓扑结构更新研究
    下载Doc文档

    猜你喜欢