论文摘要
借助Internet、数据仓库和数据挖掘技术,电子商务把事务活动和贸易活动中发生关系的各实体有机联系起来,由此产生了点击流数据仓库。由于点击流数据仓库中存储了大量客户基本信息及客户在网站上的点击行为信息,其组织方式的好坏直接影响到OLAP和DM的效率。因此,模式设计和数据的抽取是点击流数据仓库的研究热点。本文首先介绍了点击流数据仓库的定义、基本组成及主要功能,重点描述了点击流数据仓库与传统数据仓库的区别,主要体现在多维模式设计和ETL过程中的数据抽取策略两个方面。在点击流数据仓库中,传统的页面事件和会话星型模式没有把客户这一商业行为中的核心实体作为实事表,因而不能提供直接面向客户的综合分析。对原有模式进行分析的基础上,根据企业CRM的实际需求,提出了一种以客户为中心的客户管理星型模式,并利用面向客户的时间轮转模型予以实现。点击流数据仓库的数据源较多,传统的数据抽取技术在抽取效率和抽取准确性方面存在诸多不足。根据OLAP和DM的实际需求,提出了一种在服务器层使用基于时间特征的混合数据抽取策略,把点击流数据和外部数据源结合,弥补了点击流数据本身的数据不完整性等缺点。为了验证客户管理星型模式和基于时间特征的混合数据抽取策略的可行性,构建了基于电子书店的点击流数据仓库,并用OWB实现了点击流数据仓库的ETL功能。
论文目录
摘要Abstract第1章 绪论1.1 问题提出1.1.1 Web 革命1.1.2 电子商务1.1.3 CRM1.2 国内外研究现状1.2.1 国外现状1.2.2 国内现状1.3 本文研究内容第2章 数据仓库与点击流数据仓库2.1 数据仓库概述2.1.1 数据仓库的概念2.1.2 数据仓库的结构2.2 点击流与点击流数据仓库2.2.1 点击流分析2.2.2 点击流数据源2.2.3 CDW 基本组成2.2.4 CDW 主要功能2.3 DW 与CDW 的区别2.3.1 数据源2.3.2 网页技术和底层结构2.4 小结第3章 点击流数据仓库客户管理星型模式设计3.1 传统模式设计3.1.1 会话星型模式3.1.2 页面事件星型模式3.2 基本思想3.2.1 数据来源3.2.2 设计思想3.3 客户管理(CM)星型模式3.3.1 事实表设计3.3.2 维表设计3.4 面向客户的时间轮转模型3.4.1 视图与基本表相结合3.4.2 基本概念3.4.3 粒度划分3.4.4 基本时间轮转模型的构造策略3.4.5 结构设计3.4.6 时间轮转机制3.5 小结第4章 点击流数据仓库 ETL 设计4.1 点击流ETL体系结构4.1.1 ETL相关概念4.1.2 点击流ETL过程4.1.3 点击流ETL工具4.2 基于时间特征的混合数据抽取策略4.2.1 传统数据抽取方法4.2.2 在服务器层抽取数据4.2.3 确认数据源4.2.4 基本概念4.2.5 算法描述4.3 元数据设计4.3.1 元数据定义4.3.2 元数据分类4.4 数据的转换和装载4.4.1 数据转换4.4.2 数据装载4.5 小结第5章 点击流数据仓库的应用实验5.1 电子商务系统分析5.1.1 电子商务网站体系结构5.1.2 电子书店网站功能结构5.1.3 电子书店网站数据库5.1.4 电子书店网站日志格式5.2 点击流数据仓库系统设计5.2.1 概念模型设计5.2.2 逻辑模型设计5.2.3 物理模型设计5.2.4 元数据设计5.3 点击流数据ETL实现5.3.1 应用实现系统环境5.3.2 应用工具介绍5.3.3 ETL实现过程5.4 小结结论参考文献致谢攻读硕士期间发表(含录用)的学术论文
相关论文文献
标签:点击流论文; 数据仓库论文; 客户管理星型模式论文; 时间轮转模型论文; 数据抽取策略论文;