Hadoop的重复数据清理模型研究与实现

Hadoop的重复数据清理模型研究与实现

论文摘要

当今,晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律在2005年左右开始失效了,人类再也不能期待单个CPU的速度每隔18个月就翻一倍,单机的数据清理能力再也满足不了当今人们对海量数据的处理要求。基于大规模计算机集群的分布式并行计算将成为未来数据处理软件性能提升的主要途径。借助分布式计算近年来的应用热风,本研究从数据质量这个重要因素出发,设计并实现了一个基于Hadoop分布式框架的重复数据清理平台。Hadoop是一个开源的分布式计算框架。该分布式框架具备良好的扩充能力、较低的运作成本、较高的效率和较好的稳定性,而且它的Map/Reduce编程模式能够与本文的应用(重复数据清理)完美兼容,因此选择Hadoop框架作为本文研究的基础实验框架。当今世界,信息显得尤为宝贵,而数据质量是保证信息提取的一个重要前提。因此利用计算机来进行重复数据清理,减小信息系统数据的冗余度成为一个有意义的研究方向,这也是选择重复数据清理作为本文应用主题的关键原因。本文利用Hadoop的分布式数据处理特性,完成了完全重复数据清理并实现了数据按关键字段的排序过程,得到了初步聚类数据,然后采用单机预处理的方式对初步聚类数据进行再聚类。再聚类过程是该研究模型设计的重点和难点,它依靠一系列重要算法和清理规则做支撑,得到一个更加精确的聚类结果。经过再聚类处理后的数据最后交由Hadoop平台进行相似重复数据清理,得到最终的清理结果。本研究中,通过对该模型“过滤”后的实验数据进行分析,结果证实了本模型的可行性。此外通过时效对比实验,本人发现:随着数据量的增大,该模型在数据清理时的效率优势相比于单机越来越明显,从而说明了在实际应用中引入该分布式模型的必要性。最后本文通过分析Hadoop参数配置对本模型性能的影响,说明了Hadoop参数合理配置的重要性,并给出了相关的配置技巧,在一定程度上避免了硬件资源的浪费。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究背景
  • 1.2 相关课题国内外研究现状
  • 1.3 主要研究内容与创新点
  • 1.4 本文研究内容和结构
  • 1.5 本章小结
  • 第二章 Hadoop 分布式文件系统
  • 2.1 前提和设计目标
  • 2.1.1 硬件错误
  • 2.1.2 流式数据访问
  • 2.1.3 大规模数据集
  • 2.1.4 简单的一致性模型
  • 2.1.5 “移动计算比移动数据更划算”
  • 2.2 Namenode 和 Datanode
  • 2.3 文件系统的名字空间
  • 2.4 数据复制
  • 2.4.1 副本存放
  • 2.4.2 副本选择
  • 2.4.3 安全模式
  • 2.4.4 文件系统元数据的持久化
  • 2.5 通讯协议
  • 2.6 健壮性
  • 2.6.1 磁盘数据错误,心跳检测和重新复制
  • 2.6.2 集群均衡
  • 2.6.3 数据完整性
  • 2.6.4 元数据磁盘错误
  • 2.7 数据组织
  • 2.7.1 数据块
  • 2.7.2 Staging
  • 2.7.3 流水线复制
  • 2.8 可访问性
  • 2.8.1 DFSShell
  • 2.8.2 DFSAdmin
  • 2.8.3 浏览器接口
  • 2.9 存储空间回收
  • 2.9.1 文件的删除和恢复
  • 2.9.2 减少副本系数
  • 2.10 本章小结
  • 第三章 Hadoop Map/Reduce 框架介绍
  • 3.1 输入与输出
  • 3.2 Map/Reduce
  • 3.2.1 核心功能描述
  • 3.2.2 作业配置
  • 3.2.3 任务的执行和环境
  • 3.2.4 作业的提交与监控
  • 3.2.5 作业的输入
  • 3.2.6 作业的输出
  • 3.2.7 Map/Reduce 其他重要特性
  • 3.3 本章小结
  • 第四章 Hadoop 重复数据清理基础算法和数据预处理
  • 4.1 重复数据清理概述
  • 4.2 记录间相似检测算法
  • 4.2.1 编辑距离算法
  • 4.2.2 字符型字段相似度检测
  • 4.2.3 布尔型字段和数值型相似度检测
  • 4.2.4 类Pair-wise 重复记录清理算法
  • 4.3 数据预处理——按关键字段聚类算法
  • 4.3.1 初步聚类后的数据保存
  • 4.3.2 确定初步聚类后数据的边界
  • 4.3.3 数据再聚类
  • 4.4 本章小结
  • 第五章 Hadoop 实现重复数据清理
  • 5.1 实验平台搭建
  • 5.1.1 运行平台搭建
  • 5.1.2 开发平台搭建
  • 5.2 Hadoop 完全重复数据清理
  • 5.2.1 完全重复数据清理Map 类的实现
  • 5.2.2 完全重复数据清理Reduce 类的实现
  • 5.2.3 作业启动类的Hadoop 实现
  • 5.2.4 完全重复数据清理后的实验结果
  • 5.3 Hadoop 相似重复数据清理
  • 5.3.1 相似重复数据清理Map 类的实现
  • 5.3.2 相似重复数据清理Reduce 类的实现
  • 5.3.3 相似重复清理后的实验结果
  • 5.4 Hadoop 性能分析
  • 5.5 本章小结
  • 第六章 总结与展望
  • 6.1 工作总结
  • 6.2 工作展望
  • 参考文献
  • 附录源码
  • 成果目录
  • 致谢
  • 相关论文文献

    • [1].基于Hadoop的数据挖掘实践平台研究与应用[J]. 赤峰学院学报(自然科学版) 2020(02)
    • [2].基于Hadoop的网络舆情关键字监控体系分析[J]. 公关世界 2020(06)
    • [3].基于Hadoop的旅游景点推荐系统的设计与实现[J]. 信息与电脑(理论版) 2020(04)
    • [4].基于Hadoop的教学质量管理平台研究[J]. 河北软件职业技术学院学报 2020(01)
    • [5].基于Hadoop环境下蛋白质与配体分子对接模拟实验研究[J]. 数据采集与处理 2020(04)
    • [6].基于Hadoop在中医药数据挖掘中的应用[J]. 电子设计工程 2016(22)
    • [7].基于Hadoop的随书光盘云存储系统开发研究[J]. 农业图书情报学刊 2017(02)
    • [8].基于Hadoop的分布式视频转码系统的研究与设计[J]. 苏州科技学院学报(自然科学版) 2016(04)
    • [9].基于Hadoop云平台的联合收割机远程监控系统研究[J]. 农机化研究 2017(12)
    • [10].基于Hadoop的分布式视频处理[J]. 科研信息化技术与应用 2016(04)
    • [11].一种基于Hadoop平台的分布式数据检索系统[J]. 软件导刊 2017(04)
    • [12].基于Hadoop的煤炭企业数据共享系统设计[J]. 煤炭技术 2017(06)
    • [13].基于Hadoop的高校图书馆大数据关键技术研究[J]. 数字图书馆论坛 2017(05)
    • [14].基于Hadoop分布式平台的海量图像检索[J]. 南京理工大学学报 2017(04)
    • [15].基于Hadoop的推荐算法实现[J]. 自动化技术与应用 2017(10)
    • [16].Hadoop与关系型数据库在电信行业中的应用研究[J]. 广东通信技术 2017(09)
    • [17].基于Hadoop平台的图像检索研究[J]. 山西电子技术 2016(01)
    • [18].基于Hadoop平台的图像检索方法研究[J]. 兰州交通大学学报 2016(01)
    • [19].基于Hadoop的分布式搜索引擎设计与实现[J]. 图书馆学刊 2016(02)
    • [20].基于Hadoop的在线考试系统的设计研究[J]. 工业控制计算机 2016(07)
    • [21].基于Hadoop的改进遗传算法[J]. 内蒙古师范大学学报(自然科学汉文版) 2015(01)
    • [22].基于Hadoop的推荐算法研究[J]. 软件工程师 2015(04)
    • [23].Hadoop集群中作业调度研究[J]. 软件导刊 2015(04)
    • [24].基于Hadoop的电子商务个性化推荐算法——以电影推荐为例[J]. 计算机系统应用 2015(05)
    • [25].基于Hadoop的大数据清洗框架设计与应用[J]. 网络新媒体技术 2015(05)
    • [26].基于Hadoop协同过滤的电商数据推荐研究[J]. 软件导刊 2015(10)
    • [27].基于Hadoop云计算模式网络舆情监控的探索[J]. 商 2015(37)
    • [28].基于Hadoop的教育云平台的设计和实现[J]. 数码世界 2017(04)
    • [29].基于Hadoop的多维关联规则挖掘算法研究及应用[J]. 计算机工程与科学 2019(12)
    • [30].云计算Hadoop平台中基于遗传算法的高校师资培训管理[J]. 现代电子技术 2020(01)

    标签:;  ;  ;  

    Hadoop的重复数据清理模型研究与实现
    下载Doc文档

    猜你喜欢