论文摘要
当今,晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律在2005年左右开始失效了,人类再也不能期待单个CPU的速度每隔18个月就翻一倍,单机的数据清理能力再也满足不了当今人们对海量数据的处理要求。基于大规模计算机集群的分布式并行计算将成为未来数据处理软件性能提升的主要途径。借助分布式计算近年来的应用热风,本研究从数据质量这个重要因素出发,设计并实现了一个基于Hadoop分布式框架的重复数据清理平台。Hadoop是一个开源的分布式计算框架。该分布式框架具备良好的扩充能力、较低的运作成本、较高的效率和较好的稳定性,而且它的Map/Reduce编程模式能够与本文的应用(重复数据清理)完美兼容,因此选择Hadoop框架作为本文研究的基础实验框架。当今世界,信息显得尤为宝贵,而数据质量是保证信息提取的一个重要前提。因此利用计算机来进行重复数据清理,减小信息系统数据的冗余度成为一个有意义的研究方向,这也是选择重复数据清理作为本文应用主题的关键原因。本文利用Hadoop的分布式数据处理特性,完成了完全重复数据清理并实现了数据按关键字段的排序过程,得到了初步聚类数据,然后采用单机预处理的方式对初步聚类数据进行再聚类。再聚类过程是该研究模型设计的重点和难点,它依靠一系列重要算法和清理规则做支撑,得到一个更加精确的聚类结果。经过再聚类处理后的数据最后交由Hadoop平台进行相似重复数据清理,得到最终的清理结果。本研究中,通过对该模型“过滤”后的实验数据进行分析,结果证实了本模型的可行性。此外通过时效对比实验,本人发现:随着数据量的增大,该模型在数据清理时的效率优势相比于单机越来越明显,从而说明了在实际应用中引入该分布式模型的必要性。最后本文通过分析Hadoop参数配置对本模型性能的影响,说明了Hadoop参数合理配置的重要性,并给出了相关的配置技巧,在一定程度上避免了硬件资源的浪费。
论文目录
相关论文文献
- [1].基于Hadoop的数据挖掘实践平台研究与应用[J]. 赤峰学院学报(自然科学版) 2020(02)
- [2].基于Hadoop的网络舆情关键字监控体系分析[J]. 公关世界 2020(06)
- [3].基于Hadoop的旅游景点推荐系统的设计与实现[J]. 信息与电脑(理论版) 2020(04)
- [4].基于Hadoop的教学质量管理平台研究[J]. 河北软件职业技术学院学报 2020(01)
- [5].基于Hadoop环境下蛋白质与配体分子对接模拟实验研究[J]. 数据采集与处理 2020(04)
- [6].基于Hadoop在中医药数据挖掘中的应用[J]. 电子设计工程 2016(22)
- [7].基于Hadoop的随书光盘云存储系统开发研究[J]. 农业图书情报学刊 2017(02)
- [8].基于Hadoop的分布式视频转码系统的研究与设计[J]. 苏州科技学院学报(自然科学版) 2016(04)
- [9].基于Hadoop云平台的联合收割机远程监控系统研究[J]. 农机化研究 2017(12)
- [10].基于Hadoop的分布式视频处理[J]. 科研信息化技术与应用 2016(04)
- [11].一种基于Hadoop平台的分布式数据检索系统[J]. 软件导刊 2017(04)
- [12].基于Hadoop的煤炭企业数据共享系统设计[J]. 煤炭技术 2017(06)
- [13].基于Hadoop的高校图书馆大数据关键技术研究[J]. 数字图书馆论坛 2017(05)
- [14].基于Hadoop分布式平台的海量图像检索[J]. 南京理工大学学报 2017(04)
- [15].基于Hadoop的推荐算法实现[J]. 自动化技术与应用 2017(10)
- [16].Hadoop与关系型数据库在电信行业中的应用研究[J]. 广东通信技术 2017(09)
- [17].基于Hadoop平台的图像检索研究[J]. 山西电子技术 2016(01)
- [18].基于Hadoop平台的图像检索方法研究[J]. 兰州交通大学学报 2016(01)
- [19].基于Hadoop的分布式搜索引擎设计与实现[J]. 图书馆学刊 2016(02)
- [20].基于Hadoop的在线考试系统的设计研究[J]. 工业控制计算机 2016(07)
- [21].基于Hadoop的改进遗传算法[J]. 内蒙古师范大学学报(自然科学汉文版) 2015(01)
- [22].基于Hadoop的推荐算法研究[J]. 软件工程师 2015(04)
- [23].Hadoop集群中作业调度研究[J]. 软件导刊 2015(04)
- [24].基于Hadoop的电子商务个性化推荐算法——以电影推荐为例[J]. 计算机系统应用 2015(05)
- [25].基于Hadoop的大数据清洗框架设计与应用[J]. 网络新媒体技术 2015(05)
- [26].基于Hadoop协同过滤的电商数据推荐研究[J]. 软件导刊 2015(10)
- [27].基于Hadoop云计算模式网络舆情监控的探索[J]. 商 2015(37)
- [28].基于Hadoop的教育云平台的设计和实现[J]. 数码世界 2017(04)
- [29].基于Hadoop的多维关联规则挖掘算法研究及应用[J]. 计算机工程与科学 2019(12)
- [30].云计算Hadoop平台中基于遗传算法的高校师资培训管理[J]. 现代电子技术 2020(01)