点击流数据仓库的模式设计及ETL技术的研究与实现

点击流数据仓库的模式设计及ETL技术的研究与实现

论文摘要

借助Internet、数据仓库和数据挖掘技术,电子商务把事务活动和贸易活动中发生关系的各实体有机联系起来,由此产生了点击流数据仓库。由于点击流数据仓库中存储了大量客户基本信息及客户在网站上的点击行为信息,其组织方式的好坏直接影响到OLAP和DM的效率。因此,模式设计和数据的抽取是点击流数据仓库的研究热点。本文首先介绍了点击流数据仓库的定义、基本组成及主要功能,重点描述了点击流数据仓库与传统数据仓库的区别,主要体现在多维模式设计和ETL过程中的数据抽取策略两个方面。在点击流数据仓库中,传统的页面事件和会话星型模式没有把客户这一商业行为中的核心实体作为实事表,因而不能提供直接面向客户的综合分析。对原有模式进行分析的基础上,根据企业CRM的实际需求,提出了一种以客户为中心的客户管理星型模式,并利用面向客户的时间轮转模型予以实现。点击流数据仓库的数据源较多,传统的数据抽取技术在抽取效率和抽取准确性方面存在诸多不足。根据OLAP和DM的实际需求,提出了一种在服务器层使用基于时间特征的混合数据抽取策略,把点击流数据和外部数据源结合,弥补了点击流数据本身的数据不完整性等缺点。为了验证客户管理星型模式和基于时间特征的混合数据抽取策略的可行性,构建了基于电子书店的点击流数据仓库,并用OWB实现了点击流数据仓库的ETL功能。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 问题提出
  • 1.1.1 Web 革命
  • 1.1.2 电子商务
  • 1.1.3 CRM
  • 1.2 国内外研究现状
  • 1.2.1 国外现状
  • 1.2.2 国内现状
  • 1.3 本文研究内容
  • 第2章 数据仓库与点击流数据仓库
  • 2.1 数据仓库概述
  • 2.1.1 数据仓库的概念
  • 2.1.2 数据仓库的结构
  • 2.2 点击流与点击流数据仓库
  • 2.2.1 点击流分析
  • 2.2.2 点击流数据源
  • 2.2.3 CDW 基本组成
  • 2.2.4 CDW 主要功能
  • 2.3 DW 与CDW 的区别
  • 2.3.1 数据源
  • 2.3.2 网页技术和底层结构
  • 2.4 小结
  • 第3章 点击流数据仓库客户管理星型模式设计
  • 3.1 传统模式设计
  • 3.1.1 会话星型模式
  • 3.1.2 页面事件星型模式
  • 3.2 基本思想
  • 3.2.1 数据来源
  • 3.2.2 设计思想
  • 3.3 客户管理(CM)星型模式
  • 3.3.1 事实表设计
  • 3.3.2 维表设计
  • 3.4 面向客户的时间轮转模型
  • 3.4.1 视图与基本表相结合
  • 3.4.2 基本概念
  • 3.4.3 粒度划分
  • 3.4.4 基本时间轮转模型的构造策略
  • 3.4.5 结构设计
  • 3.4.6 时间轮转机制
  • 3.5 小结
  • 第4章 点击流数据仓库 ETL 设计
  • 4.1 点击流ETL体系结构
  • 4.1.1 ETL相关概念
  • 4.1.2 点击流ETL过程
  • 4.1.3 点击流ETL工具
  • 4.2 基于时间特征的混合数据抽取策略
  • 4.2.1 传统数据抽取方法
  • 4.2.2 在服务器层抽取数据
  • 4.2.3 确认数据源
  • 4.2.4 基本概念
  • 4.2.5 算法描述
  • 4.3 元数据设计
  • 4.3.1 元数据定义
  • 4.3.2 元数据分类
  • 4.4 数据的转换和装载
  • 4.4.1 数据转换
  • 4.4.2 数据装载
  • 4.5 小结
  • 第5章 点击流数据仓库的应用实验
  • 5.1 电子商务系统分析
  • 5.1.1 电子商务网站体系结构
  • 5.1.2 电子书店网站功能结构
  • 5.1.3 电子书店网站数据库
  • 5.1.4 电子书店网站日志格式
  • 5.2 点击流数据仓库系统设计
  • 5.2.1 概念模型设计
  • 5.2.2 逻辑模型设计
  • 5.2.3 物理模型设计
  • 5.2.4 元数据设计
  • 5.3 点击流数据ETL实现
  • 5.3.1 应用实现系统环境
  • 5.3.2 应用工具介绍
  • 5.3.3 ETL实现过程
  • 5.4 小结
  • 结论
  • 参考文献
  • 致谢
  • 攻读硕士期间发表(含录用)的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    点击流数据仓库的模式设计及ETL技术的研究与实现
    下载Doc文档

    猜你喜欢