论文摘要
随着互联网的迅速发展和广泛普及,web的信息量以惊人的速度增长。目前,World Wide Web己深入到人类社会的每一个角落,成为拥有近亿个工作站,数十亿页面,蕴含着巨大潜在价值知识的分布式信息空间。电子商务网站创造了前所未有的访问量,各种大型网络游戏不断刷新着在线用户数峰值,于此同时这些大型系统都记录下了海量的用户日志。就电子商务网站而言,处理网站访问日志有助于为网站的管理者提供决策支持进而指导网站运营,如改善网站结构提升用户体验;进行关键词营销提升流量、促进转化、提升效益;分析用户行为进行个性化的推荐和营销来提高网站的核心竞争力,在激烈的市场竞争中保持优势。Hadoop是Apache下的一个开源分布式计算平台,它提供简单的编程模型,对大量数据进行分布式处理。Hadoop一般运行在由大量普通计算机组成的集群上。Hadoop框架的核心是分布式文件系统HDFS和分布式计算框架Map/Reduce,为用户提供了系统底层细节透明的分布式基础架构。对电子商务网站日志进行预处理和分析,可以利用集群优势并行处理与分析日志,快速及时的为网站运营团队提供决策数据。某大型网站的分析引擎项目就是为了向企业提供基于流量、来源通路、访客、内容、商品和订单六大对象的数据分析,通过图形报表形式向企业管理者展示网站的核心数据,如动销、转化率、流量和销售集中度等,同时满足企业对于Web Analysis和Business Analysis的需求。本文在分析现有分布式储存和计算等关键技术的基础上,结合对Hadoop平台的分析与研究,设计实现了一种基于分布式计算平台的日志分析系统,并使用本系统进行了网站流量、网站来源、网站访客及订单等分析工作。本文对该系统的各个功能模块进行了详细的阐述并对本文给出的分布式平台的高效性进行了实验比较分析。实验表明,采用该分析系统,通过多个资源完成原先由一个节点承担的工作,无论是在数据处理还是任务执行上,其效率都高于基于单机集中式环境的Web日志分析,另外还可以得出任务的执行时间不仅与集群节点数量有关,还有处理的任务的逻辑复杂度有关。
论文目录
摘要ABSTRACT第一章 绪论1.1 选题背景及意义1.2 与选题有关的研究状况1.2.1 分布式计算研究现状1.2.2 云计算平台现状1.3 本文的研究内容和章节安排第二章 HADOOP技术介绍2.1 HADOOP整体架构2.1.1 HDFS2.1.2 MAPREDUCE2.2 HADOOP MAPREDUCE模型调度和容错分析2.2.1 HADOOP MAPREDUCE的调度机制2.2.2 HADOOP MAPREDUCE的容错机制2.3 HADOOP应用2.3.1 HBASE2.3.2 HIVE2.3.3 MAHOUT2.4 本章总结第三章 HADOOP平台架构的深入分析3.1 HDFS架构分析3.1.1 HDFS的目标3.1.2 NAMENODE与DATANODE3.1.3 块的概念与数据复制3.1.4 文件系统的命名空间3.1.5 元数据的持久化3.2 MAPREDUCE架构的深入分析3.2.1 MAPREDUCE的总体执行流程分析3.2.2 MAP过程介绍3.2.3 SHUFFLE过程介绍3.2.3.1 MAP端3.2.3.2 REDUCE端3.2.4 REDUCE过程介绍3.3 本章小结第四章 基于日志处理系统设计与实现4.1 海量日志处理系统4.1.1 日志收集方式简介4.1.2 日志功能需求简介4.1.3 日志处理流程分析4.1.4 作业的详细设计4.2 海量日志处理系统的实现流程4.2.1 日志数据预处理4.2.2 日志处理流程设计4.3 MAPREDUCE作业的性能优化4.3.1 I/O属性类的优化措施4.3.2 MAPREDUCE属性类的优化措施4.3.3 引入混合函数4.3.4 引入混合函数4.4 本章小节第五章 日志处理系统平台部署5.1 方案部署5.1.1 硬件部署5.1.2 软件部署5.1.2.1 操作系统版本5.1.2.2 核心应用软件版本5.2 目录结构5.3 运行实例配置5.3.1 SSH配置5.3.2 Slaves和Master配置5.3.3 Namenode和Datanode配置5.3.4 Hadoop环境变量5.3.5 Hadoop的配置项5.4 结果分析5.5 本章小节第六章 结论与展望6.1 总结6.2 展望参考文献致谢参与的科研项目
相关论文文献
标签:电子商务论文; 日志分析论文;