基于NoSQL的大规模Web日志分析系统的设计与实现

基于NoSQL的大规模Web日志分析系统的设计与实现

论文摘要

随着科技的进步以及互联网的高速发展,越来越多的Web应用被用户所使用。互联网公司也面临着更多的挑战,每天页面都会被数以万汁的用户·所使用,使得Web日志的数量也快速增长。如何更好的提高互联网公司的服务质量,了解用户的需求及爱好,增加用户的粘度,成为当今互联网行业急需解决的问题。如何利用收集的大规模Web日志数据,从这些海量数据中心找出对企业有价值的信息,是目前大多数企业面临的问题。以用户访问的Web日志数据为基础,来改进网站的设计,吸引更多的流量,从而提高用户的体验,给企业带来效益,促使了Web日志分析的产生。Web日志分析就是通过收集用户访问Web网页所产生的日志,对这些日志进行格式转换、过滤、清洗、挖掘等一系列的过程。随着Web应用访问量的增大,相应的Web日志的数量也在不断地膨胀,传统的数据存储方式不能满足当前的需求。对于Web日志的分析,单个节点的处理能力有限,不能达到互联网企业分析日志的需求,为此,大规模Web日志分析系统应运而生。采用分布式对日志进行存储以及进行分布式计算成为了大规模Web日志分析发展的必然趋势。本文主要研究NoSQL数据库MongoDB以及Hadoop分布式计算架构,并且基于MongoDB和Hadoop设计和实现了一个高性能的大规模Web日志分析系统。Hadoop包括两个核心的技术:分布式文件系统HDFS以及分布式编程模型MapReduce。本系统使用MongoDB对日志文件进行存储,日志通过分片技术被分割成若干大小相同的日志数据集,存储在分布式系统的不同节点上;利用Hadoop提供的MapReduce编程模型,对节点中的大规模的Web日志进行分析。分析的过程主要包括日志收集、日志处理、日志存储以及日志分析,系统最终以Web界面的方式展示给用户使用。基于NoSQL的大规模Web日志分析系统在收集、处理、存储和分析方面较以往的系统有很大的改进,可以高效的对各种格式的日志进行处理,不仅减少了开发人员的工作量同时提高使用人员的工作效率。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.3 本文研究意义
  • 1.4 本文组织架构
  • 第二章 相关技术概述
  • 2.1 NoSQL技术
  • 2.1.1 NoSQL的概念
  • 2.1.2 NoSQL的特点
  • 2.1.3 NoSQL的分类
  • 2.1.4 NoSQL与SQL比较
  • 2.2 Hadoop技术
  • 2.2.1 MapReduce
  • 2.2.2 HDFS
  • 2.3 MongoDB数据库
  • 2.3.1 MongoDB简介
  • 2.3.2 MongoDB的特点
  • 2.3.3 MongoDB体系结构
  • 2.4 本章小结
  • 第三章 大规模Web日志分析系统需求分析
  • 3.1 日志分析存在的问题
  • 3.2 系统需求分析
  • 3.3 系统功能概要
  • 3.3.1 日志收集
  • 3.3.2 日志处理
  • 3.3.3 日志存储
  • 3.3.4 日志分析
  • 3.4 本章小结
  • 第四章 系统设计与实现
  • 4.1 日志收集模块设计与实现
  • 4.2 日志处理模块设计与实现
  • 4.3 日志存储模块设计与实现
  • 4.4 日志分析模块设计与实现
  • 4.5 本章小结
  • 第五章 效果与分析
  • 5.1 硬件环境配置
  • 5.2 系统实现效果
  • 5.2.1 Web请求实时展示
  • 5.2.2 日志检索功能
  • 5.2.3 统计分析功能
  • 5.2.4 索引管理功能
  • 5.2.5 日志管理功能
  • 5.3 本章小结
  • 第六章 总结与展望
  • 6.1 本文总结
  • 6.2 对未来的展望
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  

    基于NoSQL的大规模Web日志分析系统的设计与实现
    下载Doc文档

    猜你喜欢