海量数据分析处理方法的研究

海量数据分析处理方法的研究

论文摘要

随着信息技术的发展,很多领域对信息系统的建设处在转型阶段。以金融领域为例,后续IT建设的重心逐步从建设“核心业务交易系统”进入到构建“以客户为中心、以风险控制和盈利分析为目标的信息管理系统”的发展阶段。这种转型需要对原有业务系统的数据进行统一分析,实现数据跨部门、跨时间和跨平台共享。为此海量数据分析处理需求强烈。MapReduce是由Google公司首先提出的,一种能在大型计算机集群上并发地处理海量数据的框架模型。使用者通过指定一个Map函数将输入数据转化成为一系列中间键-值对,然后由一个自定义的reduce函数将具有相同键的值聚集起来,将结果输出。很多现实世界对海量数据的处理,都可以用这种模型来表示。并行数据库作为一种高性能的数据库系统,是并行技术和数据库技术结合的产物,它大大提高了关系数据库中对数据的处理效率。常见的并行数据库根据并行架构的不同,可以分为共性内存、共性磁盘、无共享的三种架构方式。本文在分析Mapreduce和并行数据库的基础上,提出了一种并发处理海量数据的更通用、更可扩展的平台大概架构。并对相关的产品进行了详细的测试。首先,我们分析了MapReduce和并行数据库对海量数据处理的并行方式,具体的了解了两种方法的发展以及实现思路。接着,我们从多个方面对两者进行了详细的比较,得到了它们的优缺点,为后续的设计打下了基础。接着我们提出了三种MapReduce和SQL结合的方式,分别是MapReduce引擎增加SQL层、MapReduce调度SQL语句、SQL语句调用MapReduce,通过三种结合方式的比较,我们认为SQL语句调用MapReduce的方法是最好的一种。然后,我们提出了将并行数据库和MapReduce结合的大概设计框架,这种架构采用客户端、主控节点、分支节点的三点式架构。其中,主控节点负责收集与处理其他节点的各种信息;分支节点负责任务的具体执行。接着,我们通过MapReduce的自定义函数对SQL进行了扩展,提出了将MapReduce嵌入到SQL语句里面的方式和具体的执行方式。接着,我们描述了数据分布策略和镜像处理的概要情况。最后,我们对当前比较优秀的并行数据库Greenplum进行了详细的测试,测试数据以真实的一家证券公司的业务数据为基础,从数据加载、统计分析执行等几个方面进行了性能比较。得到了其针对海量数据处理的性能结果。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 引言
  • 1.2 现实背景
  • 1.3 并行处理概述
  • 1.4 数据库技术发展概述
  • 1.5 研究内容及目标
  • 1.6 论文结构
  • 第二章 海量数据分析处理方法
  • 2.1 概述
  • 2.2 方法一:MAPREDUCE
  • 2.2.1 出现的背景
  • 2.2.2 主要思路
  • 2.2.3 简单示例
  • 2.2.4 模式执行过程
  • 2.2.5 基于MapReduce 实现的hadoop 项目
  • 2.2.6 HDFS 分布式文件系统
  • 2.3 方法二:并行数据库
  • 2.3.1 并行数据库的发展
  • 2.3.2 并行数据库的目标
  • 2.3.3 并行数据库的体系架构
  • 2.3.4 并行查询
  • 2.4 两种方法的比较
  • 2.4.1 模式支持
  • 2.4.2 索引
  • 2.4.3 编程模式
  • 2.4.4 数据分布
  • 2.4.5 执行策略
  • 2.4.6 灵活性
  • 2.4.7 容错性
  • 2.5 本章小结
  • 第三章 海量数据处理方法概要设计
  • 3.1 设计原则
  • 3.1.1 多种数据格式支持原则
  • 3.1.2 数据高速加载原则
  • 3.1.3 数据接口通用原则
  • 3.1.4 数据处理高效原则
  • 3.2 MAPREDUCE 和SQL 的结合
  • 3.2.1 结合思路
  • 3.2.2 方法一:Mapreduce 引擎增加SQL 层
  • 3.2.3 方法二:Mapreduce 调用SQL 语句
  • 3.2.4 方法三:SQL 语句调用Mapreduce
  • 3.2.5 结合思路总结
  • 3.3 处理平台的设计
  • 3.3.1 整体架构
  • 3.3.2 M-SQL 的设计
  • 3.3.3 数据分布策略
  • 3.3.4 分支存储的镜像处理
  • 3.4 本章小结
  • 第四章 测试实验
  • 4.1 GREENPLUM 介绍
  • 4.2 测试环境说明
  • 4.2.1 测试环境架构
  • 4.2.2 测试环境配置说明
  • 4.2.3 测试网络环境
  • 4.2.4 测试范围
  • 4.2.5 测试流程
  • 4.3 测试过程及结果
  • 4.3.1 大批量数据文件装载测试
  • 4.3.2 统计分析测试
  • 4.3.3 节点镜像测试
  • 4.3.4 数据备份恢复测试
  • 4.3.5 标准SQL 支持及存储过程支持
  • 4.4 本章小结
  • 第五章 总结与展望
  • 5.1 本文总结
  • 5.2 研究展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间已发表或录用的论文
  • 相关论文文献

    • [1].基于机器学习的波数据分析处理方法[J]. 网络安全技术与应用 2020(09)
    • [2].基于并行数据库的海量数据分析处理方法的研究[J]. 电子设计工程 2017(10)
    • [3].空管无线电数据分析处理系统的设计[J]. 电子技术与软件工程 2020(04)
    • [4].录取数据分析处理系统对独立学院发展的重要性[J]. 文教资料 2010(21)
    • [5].智慧校园服务平台建设研究[J]. 电子技术与软件工程 2016(24)
    • [6].大数据分析处理与平台架构技术研究[J]. 电脑编程技巧与维护 2019(03)
    • [7].固体火箭发动机试验数据分析处理软件设计[J]. 计算机测量与控制 2010(08)
    • [8].互联网金融的大数据分析处理研究[J]. 时代金融 2020(05)
    • [9].大数据分析处理全民参保登记工作[J]. 中国劳动 2016(09)
    • [10].基础设施检测数据分析处理中心[J]. 铁路技术创新 2012(01)
    • [11].基于大数据背景下数据分析处理课程教学改革研究[J]. 数码世界 2019(10)
    • [12].城市多源交通数据分析处理关键技术研究[J]. 浙江工业大学学报 2018(03)
    • [13].12315数据分析处理的基本方法探讨[J]. 工商行政管理 2015(09)
    • [14].基于VBA的数据分析处理研究——以宜宾电大网上教学管理数据分析处理为例[J]. 信息与电脑(理论版) 2019(14)
    • [15].环境空气监测数据分析处理及控制[J]. 科学技术创新 2018(21)
    • [16].基于LabWindows/CVI的振动测试数据分析处理系统设计[J]. 测控技术 2015(01)
    • [17].交互式电子白板课堂教学质量评价数据分析处理系统设计[J]. 现代电子技术 2020(10)
    • [18].基于Teechart8.0的测控系统数据分析处理软件设计与实现[J]. 桂林航天工业学院学报 2017(03)
    • [19].基于Pig__Spark的分布式数据分析处理平台[J]. 信息技术 2017(07)
    • [20].油料化验数据分析处理应注意把握的几个环节[J]. 化工管理 2015(20)
    • [21].安防视频监控联网大数据分析处理系统设计[J]. 河南科技 2018(16)
    • [22].基于MATLAB的测量数据分析处理系统研究[J]. 科技致富向导 2013(30)
    • [23].城市突发水涝灾害大数据分析技术研究[J]. 科技通报 2016(04)
    • [24].Storm实现的应用模型研究[J]. 广东工业大学学报 2014(03)
    • [25].探究活动中数据处理和分析方法例谈[J]. 中学生物学 2016(04)
    • [26].深度学习在数字化试飞中的应用[J]. 中国科技信息 2019(Z1)
    • [27].涂崇俊:有想法的行动派[J]. 军营文化天地 2016(06)
    • [28].铁路基础设施检测数据分析处理中心[J]. 中国铁路 2018(10)
    • [29].匝道控制中全景视觉监控数据分析处理技术的研究[J]. 市政技术 2012(02)
    • [30].论数字化实验室的建设标准——南京市第三高级中学科学馆改造工程纪实[J]. 中国现代教育装备 2011(06)

    标签:;  ;  ;  ;  ;  ;  

    海量数据分析处理方法的研究
    下载Doc文档

    猜你喜欢