关联规则改进及其在网络日志挖掘中的应用

关联规则改进及其在网络日志挖掘中的应用

论文摘要

Apriori算法是数据挖掘中最普遍的关联规则挖掘算法。但是在大型数据库或低阈值的挖掘中则会相当耗费时间,因为Apriori算法在数据挖掘的过程中有两个效率上的缺点,其中一个是需要多次扫描数据库,另外一个是产生过多的侯选项集,所以有不少学者从这两个缺点改善,提出有效的新算法,希望能提升数据挖掘的速度。本文针对在大型数据库中挖掘的效率问题提出了一个新算法HEA(High Efficient Algorithm),只需要扫描一次数据库。HEA可以通过群聚技术不需要计算项集的实际出现次数,即可判断是否为频繁项集,从而减少侯选项集的产生。另外近年来由于因特网的快速发展及上网人口的迅速增加,使得电子商务的应用和竞争更加激烈,所以一对一营销与网站个人化推荐系统的观念也开始风行起来。过去网络数据挖掘的研究,由于HTML文件组织松散以及所使用的标签与网页内容关联性不高,所以造成我们无法针对使用者的网页内容浏览习惯做有效率的挖掘分析。近几年,XML(Extensible Markup Language)扩展式标记语言的制订弥补了HTML的许多缺点。所以,本文尝试提出一个针对以XML网页为建构基础的数据挖掘方法,此外也提出了一个XML标识内容提取的框架,进一步通过此框架取得使用者浏览网页内容的历史数据,以协助后续的客户网页浏览习惯研究与应用可以顺利展开。本论文提出了一个XML文件标签提取的方法。通过它,可以将使用者所浏览的网页内容信息提取出来并进行浏览行为分析。此外,还提出了一个个人化推荐的方法,借助它可以对不同的顾客给予不同的商品推荐。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 研究背景与动机
  • 1.2 论文的主要研究内容
  • 1.3 论文结构
  • 第二章 背景知识
  • 2.1 关联规则挖掘(ASSOCIATION RULES MINING)
  • 2.1.1 Apriori 算法
  • 2.1.2 DHP 算法
  • 2.1.3 Partition 算法
  • 2.1.4 Sampling 算法
  • 2.1.5 DIC 算法(Dynamic Itemset Count)
  • 2.1.6 Boolean 算法
  • 2.1.7 FP-Tree 算法
  • 2.2 网络挖掘(WEB MINING)
  • 2.2.1 Web 内容挖掘
  • 2.2.2 Web 结构挖掘
  • 2.2.3 Web 访问挖掘
  • 2.3 XML
  • 2.4 小结
  • 第三章 HEA 算法设计
  • 3.1 HEA 算法设计思路
  • 3.2 HEA 算法实例说明
  • 3.3 HEA 算法的特点
  • 3.4 HEA 算法的性能测试
  • 3.5 HEA 算法用于挖掘XML 文件的方法
  • 3.6 小结
  • 第四章 基于XML 网页的挖掘系统设计
  • 4.1 XML 网页标识获取结构的设计
  • 4.2 个人化网站资料推荐系统的设计
  • 4.2.1 个人化推荐
  • 4.2.2 个人化推荐流程
  • 4.3 XML 网页推荐系统说明
  • 4.4 实验网站建设
  • 4.5 小结
  • 第五章 分析与讨论
  • 5.1 分析资料介绍
  • 5.2 使用者的网页内容浏览特性分析
  • 5.3 商品关联分析
  • 5.4 讨论
  • 5.4.1 影响分析的因素
  • 5.4.2 对HTML 网页的数据挖掘
  • 第六章 结论
  • 6.1 本文的工作
  • 6.2 待进一步研究的问题
  • 参考文献
  • 攻读学位期间公开发表的论文
  • 致谢
  • 附录
  • 详细摘要
  • 相关论文文献

    • [1].技术传播的用户画像分析理论对网页内容设计的启示[J]. 海外英语 2019(03)
    • [2].浏览器快速处理网页内容[J]. 电脑爱好者 2017(13)
    • [3].iOS 9应用小技巧[J]. 电脑迷 2015(11)
    • [4].网页内容提取工具的设计与实现[J]. 电脑知识与技术 2011(32)
    • [5].解决网页内容不可复制问题[J]. 黑龙江科技信息 2011(35)
    • [6].时空穿梭 快速找回以前看过的网页内容[J]. 电脑迷 2010(16)
    • [7].移动元搜索引擎中网页内容提取算法研究[J]. 现代图书情报技术 2010(10)
    • [8].基于向量空间的网页内容相似度计算方法研究[J]. 计算机与现代化 2010(09)
    • [9].网页内容快速保存 快拖云收藏[J]. 电脑知识与技术(经验技巧) 2012(11)
    • [10].对超长网页内容进行截图[J]. 电脑知识与技术(经验技巧) 2019(08)
    • [11].基于块分布的新闻网页内容提取[J]. 吉林大学学报(工学版) 2009(05)
    • [12].基于文本对象模型的自动化网页内容提取方法[J]. 上海交通大学学报 2018(10)
    • [13].蚁群算法在网页内容分类中的应用研究[J]. 计算机系统应用 2009(04)
    • [14].基于网页内容相似度和链接关系的社区发现及动态添加[J]. 郑州大学学报(理学版) 2011(01)
    • [15].基于网页内容和链接价值的相关度方法的实现[J]. 计算机工程与设计 2008(23)
    • [16].精彩内容 瞬间分享[J]. 电脑迷 2010(10)
    • [17].祝贺本刊2010~2011年上半年网页点击逾10万次[J]. 中国矫形外科杂志 2011(15)
    • [18].祝贺本刊2011年上半年网页点击逾10万次[J]. 中国矫形外科杂志 2011(16)
    • [19].指指点点,文字、图片轻松抓[J]. 电脑爱好者 2008(17)
    • [20].揭开IE浏览器自动关闭谜底[J]. 个人电脑 2013(07)
    • [21].揭开IE浏览器自动关闭谜底[J]. 个人电脑 2017(11)
    • [22].苹果Ⅰ族应用技巧十二则[J]. 电脑知识与技术(经验技巧) 2015(11)
    • [23].一键清除Google的网络历史记录[J]. 电脑爱好者 2011(19)
    • [24].教你几招解决无法复制的网页内容[J]. 电脑知识与技术(经验技巧) 2012(06)
    • [25].老业务的2.0[J]. 21世纪商业评论 2008(06)
    • [26].网摘 得配备好武器[J]. 电脑爱好者(普及版) 2009(04)
    • [27].基于访问日志的网页内容监控挖掘系统[J]. 计算机工程 2011(04)
    • [28].不让图片帖子显示安全警告[J]. 电脑迷 2010(07)
    • [29].浅谈新时期编辑在图书线上销售中的价值体现[J]. 参花(下) 2018(09)
    • [30].Web网页内容特征库的构建及应用[J]. 情报探索 2009(04)

    标签:;  ;  ;  

    关联规则改进及其在网络日志挖掘中的应用
    下载Doc文档

    猜你喜欢