论文摘要
随着信息技术的发展,很多领域对信息系统的建设处在转型阶段。以金融领域为例,后续IT建设的重心逐步从建设“核心业务交易系统”进入到构建“以客户为中心、以风险控制和盈利分析为目标的信息管理系统”的发展阶段。这种转型需要对原有业务系统的数据进行统一分析,实现数据跨部门、跨时间和跨平台共享。为此海量数据分析处理需求强烈。MapReduce是由Google公司首先提出的,一种能在大型计算机集群上并发地处理海量数据的框架模型。使用者通过指定一个Map函数将输入数据转化成为一系列中间键-值对,然后由一个自定义的reduce函数将具有相同键的值聚集起来,将结果输出。很多现实世界对海量数据的处理,都可以用这种模型来表示。并行数据库作为一种高性能的数据库系统,是并行技术和数据库技术结合的产物,它大大提高了关系数据库中对数据的处理效率。常见的并行数据库根据并行架构的不同,可以分为共性内存、共性磁盘、无共享的三种架构方式。本文在分析Mapreduce和并行数据库的基础上,提出了一种并发处理海量数据的更通用、更可扩展的平台大概架构。并对相关的产品进行了详细的测试。首先,我们分析了MapReduce和并行数据库对海量数据处理的并行方式,具体的了解了两种方法的发展以及实现思路。接着,我们从多个方面对两者进行了详细的比较,得到了它们的优缺点,为后续的设计打下了基础。接着我们提出了三种MapReduce和SQL结合的方式,分别是MapReduce引擎增加SQL层、MapReduce调度SQL语句、SQL语句调用MapReduce,通过三种结合方式的比较,我们认为SQL语句调用MapReduce的方法是最好的一种。然后,我们提出了将并行数据库和MapReduce结合的大概设计框架,这种架构采用客户端、主控节点、分支节点的三点式架构。其中,主控节点负责收集与处理其他节点的各种信息;分支节点负责任务的具体执行。接着,我们通过MapReduce的自定义函数对SQL进行了扩展,提出了将MapReduce嵌入到SQL语句里面的方式和具体的执行方式。接着,我们描述了数据分布策略和镜像处理的概要情况。最后,我们对当前比较优秀的并行数据库Greenplum进行了详细的测试,测试数据以真实的一家证券公司的业务数据为基础,从数据加载、统计分析执行等几个方面进行了性能比较。得到了其针对海量数据处理的性能结果。
论文目录
相关论文文献
- [1].基于机器学习的波数据分析处理方法[J]. 网络安全技术与应用 2020(09)
- [2].基于并行数据库的海量数据分析处理方法的研究[J]. 电子设计工程 2017(10)
- [3].空管无线电数据分析处理系统的设计[J]. 电子技术与软件工程 2020(04)
- [4].录取数据分析处理系统对独立学院发展的重要性[J]. 文教资料 2010(21)
- [5].智慧校园服务平台建设研究[J]. 电子技术与软件工程 2016(24)
- [6].大数据分析处理与平台架构技术研究[J]. 电脑编程技巧与维护 2019(03)
- [7].固体火箭发动机试验数据分析处理软件设计[J]. 计算机测量与控制 2010(08)
- [8].互联网金融的大数据分析处理研究[J]. 时代金融 2020(05)
- [9].大数据分析处理全民参保登记工作[J]. 中国劳动 2016(09)
- [10].基础设施检测数据分析处理中心[J]. 铁路技术创新 2012(01)
- [11].基于大数据背景下数据分析处理课程教学改革研究[J]. 数码世界 2019(10)
- [12].城市多源交通数据分析处理关键技术研究[J]. 浙江工业大学学报 2018(03)
- [13].12315数据分析处理的基本方法探讨[J]. 工商行政管理 2015(09)
- [14].基于VBA的数据分析处理研究——以宜宾电大网上教学管理数据分析处理为例[J]. 信息与电脑(理论版) 2019(14)
- [15].环境空气监测数据分析处理及控制[J]. 科学技术创新 2018(21)
- [16].基于LabWindows/CVI的振动测试数据分析处理系统设计[J]. 测控技术 2015(01)
- [17].交互式电子白板课堂教学质量评价数据分析处理系统设计[J]. 现代电子技术 2020(10)
- [18].基于Teechart8.0的测控系统数据分析处理软件设计与实现[J]. 桂林航天工业学院学报 2017(03)
- [19].基于Pig__Spark的分布式数据分析处理平台[J]. 信息技术 2017(07)
- [20].油料化验数据分析处理应注意把握的几个环节[J]. 化工管理 2015(20)
- [21].安防视频监控联网大数据分析处理系统设计[J]. 河南科技 2018(16)
- [22].基于MATLAB的测量数据分析处理系统研究[J]. 科技致富向导 2013(30)
- [23].城市突发水涝灾害大数据分析技术研究[J]. 科技通报 2016(04)
- [24].Storm实现的应用模型研究[J]. 广东工业大学学报 2014(03)
- [25].探究活动中数据处理和分析方法例谈[J]. 中学生物学 2016(04)
- [26].深度学习在数字化试飞中的应用[J]. 中国科技信息 2019(Z1)
- [27].涂崇俊:有想法的行动派[J]. 军营文化天地 2016(06)
- [28].铁路基础设施检测数据分析处理中心[J]. 中国铁路 2018(10)
- [29].匝道控制中全景视觉监控数据分析处理技术的研究[J]. 市政技术 2012(02)
- [30].论数字化实验室的建设标准——南京市第三高级中学科学馆改造工程纪实[J]. 中国现代教育装备 2011(06)