基于遗传算法的Web数据挖掘研究

基于遗传算法的Web数据挖掘研究

论文摘要

数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种全新的信息技术,是指从数据中提取模式的过程。同时,数据挖掘又是一种决策支持过程,它主要基于人工智能、机器学习、统计学等技术,高度自动化地分析企业原有数据,做出归纳性推理,从中挖掘出潜在的模式,预测用户的行为帮助企业决策者调整市场策略,减少风险,做出正确决策。随着万维网的迅猛发展,产生了海量缺乏语义链接的Web数据,虽然人工智能(Artificial Intelligence)、统计学(Statistics)等成熟技术在各种特定领域从模糊数据中提取隐含的、潜在有用的信息和知识的过程中得到成功应用,但是,由于Web数据的特性以及数据挖掘或知识发现本身也是一个不成熟的、尚待进一步研究的领域,对研究人员仍然是一个巨大的挑战。对Web数据挖掘问题的研究有助于网络知识的综合利用,有助于及时调整决策策略,有助于提高系统安全。本课题首先学习和分析具有一种成熟的智能优化算法(遗传算法),然后在传统的数据挖掘方法的基础之上,从Web行为挖掘领域引入了GA,进行了聚类分析和关联规则挖掘,用户聚类分析为系统准确分析类用户群体的行为特征提供了重要依据,而通过遗传关联规则挖掘,优化并且丰富了类用户的行为特征,弥补了类用户由于访问量、时间的限制而可能产生的行为特征分析不全面,从总体上起到了优化预测的作用。处理数据源主要是Web站点的拓扑结构和用户访问日志,是整个系统的离线部分,从众多用户对Web页面的大量的点击中,分析Web用户的行为特征,实现用户聚类,再分析每一类用户的个性行为特征,得到描述用户行为方式的关联规则,为整个系统的个性化服务提供知识支持。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 数据挖掘介绍
  • 1.2 进化计算研究现状
  • 1.3 万维网的数据挖掘技术
  • 1.4 本文的工作
  • 第二章 Web数据挖掘技术
  • 2.1 数据挖掘的定义
  • 2.1.1 技术角度的定义
  • 2.1.2 商业角度的定义
  • 2.2 数据挖掘研究的内容
  • 2.2.1 广义知识
  • 2.2.2 关联知识
  • 2.2.3 分类知识
  • 2.2.4 聚类知识
  • 2.2.5 预测型知识
  • 2.2.6 偏差型知识
  • 2.3 数据挖掘技术
  • 2.3.1 关联分析
  • 2.3.2 分类和聚类分析
  • 2.3.3 神经网络
  • 2.3.4 决策树和规则推理
  • 2.4 数据挖掘的流程
  • 2.5 Web数据挖掘
  • 2.5.1 Web挖掘的概念
  • 2.5.2 Web数据挖掘的分类
  • 第三章 遗传算法简介
  • 3.1 遗传算法的基本概念
  • 3.1.1 遗传算法的生物学基础
  • 3.1.2 遗传算法的发展史
  • 3.1.3 遗传算法的形式化描述
  • 3.2 标准 GA的基本操作
  • 3.3 遗传算法理论研究概况
  • 3.4 遗传算法的基本结构和特征
  • 3.5 设计遗传算法的基本原则和步骤
  • 3.6 遗传算法在其它领域的应用性研究
  • 3.7 改进遗传算法
  • 3.7.1 改进遗传算法介绍
  • 3.7.2 改进遗传算法流程
  • 3.7.3 改进遗传算法实验结果
  • 第四章 基于遗传算法的关联挖掘研究
  • 4.1 关联规则简述
  • 4.2 关联规则挖掘算法
  • 4.2.1 Web关联规则简述
  • 4.2.2 关联规则挖掘算法 DHP(Direct Hashing and Pruning)
  • 4.3 遗传关联规则挖掘的设计与实现
  • 4.3.1 遗传关联规则挖掘分析
  • 4.3.2 遗传关联规则挖掘的具体实现
  • 4.4 实验结果
  • 第五章 结束语和工作展望
  • 5.1 结束语
  • 5.2 工作展望
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于遗传算法的Web数据挖掘研究
    下载Doc文档

    猜你喜欢