关联规则改进及其在网络日志挖掘中的应用

论文摘要

Apriori算法是数据挖掘中最普遍的关联规则挖掘算法。但是在大型数据库或低阈值的挖掘中则会相当耗费时间,因为Apriori算法在数据挖掘的过程中有两个效率上的缺点,其中一个是需要多次扫描数据库,另外一个是产生过多的侯选项集,所以有不少学者从这两个缺点改善,提出有效的新算法,希望能提升数据挖掘的速度。本文针对在大型数据库中挖掘的效率问题提出了一个新算法HEA(High Efficient Algorithm),只需要扫描一次数据库。HEA可以通过群聚技术不需要计算项集的实际出现次数,即可判断是否为频繁项集,从而减少侯选项集的产生。另外近年来由于因特网的快速发展及上网人口的迅速增加,使得电子商务的应用和竞争更加激烈,所以一对一营销与网站个人化推荐系统的观念也开始风行起来。过去网络数据挖掘的研究,由于HTML文件组织松散以及所使用的标签与网页内容关联性不高,所以造成我们无法针对使用者的网页内容浏览习惯做有效率的挖掘分析。近几年,XML(Extensible Markup Language)扩展式标记语言的制订弥补了HTML的许多缺点。所以,本文尝试提出一个针对以XML网页为建构基础的数据挖掘方法,此外也提出了一个XML标识内容提取的框架,进一步通过此框架取得使用者浏览网页内容的历史数据,以协助后续的客户网页浏览习惯研究与应用可以顺利展开。本论文提出了一个XML文件标签提取的方法。通过它,可以将使用者所浏览的网页内容信息提取出来并进行浏览行为分析。此外,还提出了一个个人化推荐的方法,借助它可以对不同的顾客给予不同的商品推荐。

论文目录

摘要

Abstract

第一章引言

1.1 研究背景与动机

1.2 论文的主要研究内容

1.3 论文结构

第二章背景知识

2.1 关联规则挖掘（ASSOCIATION RULES MINING）

2.1.1 Apriori 算法

2.1.2 DHP 算法

2.1.3 Partition 算法

2.1.4 Sampling 算法

2.1.5 DIC 算法（Dynamic Itemset Count）

2.1.6 Boolean 算法

2.1.7 FP-Tree 算法

2.2 网络挖掘（WEB MINING）

2.2.1 Web 内容挖掘

2.2.2 Web 结构挖掘

2.2.3 Web 访问挖掘

2.3 XML

2.4 小结

第三章 HEA 算法设计

3.1 HEA 算法设计思路

3.2 HEA 算法实例说明

3.3 HEA 算法的特点

3.4 HEA 算法的性能测试

3.5 HEA 算法用于挖掘XML 文件的方法

3.6 小结

第四章基于XML 网页的挖掘系统设计

4.1 XML 网页标识获取结构的设计

4.2 个人化网站资料推荐系统的设计

4.2.1 个人化推荐

4.2.2 个人化推荐流程

4.3 XML 网页推荐系统说明

4.4 实验网站建设

4.5 小结

第五章分析与讨论

5.1 分析资料介绍

5.2 使用者的网页内容浏览特性分析

5.3 商品关联分析

5.4 讨论

5.4.1 影响分析的因素

5.4.2 对HTML 网页的数据挖掘

第六章结论

6.1 本文的工作

6.2 待进一步研究的问题

参考文献

攻读学位期间公开发表的论文

致谢

附录

详细摘要

关联规则改进及其在网络日志挖掘中的应用

论文摘要

论文目录

相关论文文献

猜你喜欢