大规模数据场论文-张学智,李维帅,张宏志,田升,王海峰

大规模数据场论文-张学智,李维帅,张宏志,田升,王海峰

导读:本文包含了大规模数据场论文开题报告文献综述及选题提纲参考文献,主要关键词:MapReduce技术,SPDK框架,大规模数据处理,I,O处理

大规模数据场论文文献综述

张学智,李维帅,张宏志,田升,王海峰[1](2019)在《基于MapReduce的SPDK大规模数据高效研究》一文中研究指出在当今大数据时代,计算机处理数据的要求也随之增加。当待处理数据的容量大于计算机内存容量之时,常常需要内存与外存进行数据之间的置换过程。在数据置换过程中,涉及大量的I/O读写操作,数据处理算法的效率较低。Intel公司发行用于加速SSD的应用软件加速库SPDK能够很大程度上减少NVMe I/O Command的延迟,从根本上提高I/O读写的性能。(本文来源于《电脑编程技巧与维护》期刊2019年10期)

张维[2](2019)在《史上最大规模数据窃取案嫌疑人被起诉》一文中研究指出涉及30亿条用户信息,堪称“史上最大规模的数据窃取案”近日进入公诉程序。8月5日获悉,浙江省绍兴市越城区人民检察院对此案7名被告人提起公诉。你有没有过这样的经历:微博莫名关注了一堆陌生营销账号、QQ不知怎么就被加进陌生群组、抖音也“自动”成(本文来源于《法制日报》期刊2019-08-06)

章霞[3](2019)在《面向大规模数据的直接优化AUC算法研究》一文中研究指出近些年来,机器学习和数据挖掘成为了人工智能领域的研究热点。二分类学习作为机器学习和数据挖掘的一个重要研究内容,也受到越来越多的关注。传统的二分类算法一般都是以精度作为评价标准,并不适用于不平衡应用环境。针对不平衡二分类问题,直接优化不平衡准则的算法因其目标函数与评价标准的一致性具有重要的研究价值,其中最为常见的就是直接优化AUC算法。而在真实的不平衡二分类应用中,例如信息检索和金融欺诈等领域,随着数据的急剧增长,已有的基于批学习的AUC优化算法训练速度较慢,不适用于大规模不平衡分类问题。本文提出了面向大规模数据的直接优化AUC算法,利用随机/在线学习在大规模环境下的优势,首先提出了基于mini-batch随机梯度下降法的直接优化AUC算法,再针对大规模数据的噪音问题,提出了基于自适应鲁棒性的在线AUC优化算法。本文的主要工作如下:(1)首先提出了一种基于随机学习的AUC优化算法,称为AMAUC。具体地说,算法采用mini-batch的框架结合L2正则项构成目标函数。mini-batch的方法可以有效降低AUC的平方级别的复杂度,L2正则项则可以防止模型过拟合,在模型更新方式上采用投影梯度法进行内部优化。为了进一步提高性能,还采用了一种自适应更新学习率策略,利用梯度的历史二阶信息提供特征更新,能给予低频特征以较高的学习率更新,高频特征以较低的学习率更新。并且进一步将AUC优化的收敛性提高到了O(log(T)/T),有效提高了算法的收敛速率,在大规模的基准和高维数据集的实验也验证了所提出算法的有效性和效率。(2)真实的大规模不平衡应用环境往往含有噪音数据,而现有的在线AUC算法虽然在不平衡分类问题中能取得较好的分类效果,然而对离群点较为敏感。因此,对此进一步提出一种自适应鲁棒性的在线AUC最大化算法,名为AROAM。针对噪音问题,首先定义基于ramp损失函数的面向AUC度量标准的目标函数,这种损失函数具有较强的抑制噪音影响的能力。因为ramp损失为非凸的损失函数,不能用传统的凸优化方法求解,采用CCCP(凹凸过程)对目标函数进行凸逼近,进一步在每轮迭代训练中采用自适应步长策略来提高AROAM的性能,结合动量法并充分的利用梯度的一阶和二阶信息,可以有效更新分类器。基准数据集的实验验证了所提出算法的有效性,在不同噪音率的数据集上的实验也验证了算法的鲁棒性。(本文来源于《安徽大学》期刊2019-05-01)

王建永,林俊,黄杰韬,方宽[4](2019)在《达梦数据库中大规模数据可扩展并行算法》一文中研究指出达梦(DM)数据库中的数据规模大且维度复杂,为了在有限的条件下尽可能满足用户对DM数据库功能的需求,提出一种新的DM数据库中大规模数据可扩展并行算法。不可扩展并行算法包括朴素并行、典型并行与逻辑并行叁种处理规则,新算法将这叁种处理规则结合起来实现数据自主运算,令每个运算节点均拥有叁种处理模式,采用有向图将大规模数据划分为局部数据,并分配到处理器上,通过设置数据处理优先等级,完成流水线形式的数据处理过程,赋予并行算法强大的可扩展性。实验结果表明,新算法具有较强的可扩展性,负债均衡能力强。(本文来源于《科学技术与工程》期刊2019年07期)

吴辰晨[5](2019)在《大规模数据获取系统下的数据汇聚关键技术研究》一文中研究指出在地球物理勘探和高能物理等科研领域,经常会通过大型物理实验对学科的前沿理论和猜想进行研究。数据获取系统是大型物理学实验中非常重要的设备,它的核心功能是接收前端采集电子学的原始数据,按实验要求对数据进行预处理等操作,然后将其汇总记录到存储系统中,等待进一步的分析。近年来,随着科技水平进步,大规模传感器阵列中通道数量、采样频率都在不断提升,数据获取系统的原始数据率也在递增,随之而来的问题就是如何提高大规模数据获取系统的数据传输和实时处理能力。数据汇聚是数据获取系统中很重要的一个环节,主要负责对数据进行及时高效的组织和汇聚,并且将汇总后的数据传输到后端存储系统。数据获取系统可以通过提升数据汇聚能力来提高传输和处理能力的上限。不同的数据获取系统内部结构虽然存在差异,但是核心功能和工作流程都是相似的,所以理论上可以用一个通用的方案解决多个系统的数据汇聚问题。为了设计出高性能高通用的数据汇聚方案,在解决大规模数据获取系统的数据汇聚问题的同时,能够适用于多种大型物理学实验的数据获取系统,本论文展开了相关的研究工作。本论文在调研参考技术和分析方案需求的基础上,遵循通用化和标准化的设计思路,最终结合软硬件设计实现了一种适用于多种大规模数据获取系统的高速数据汇聚方案,具备很强的灵活性、改动成本低、能够稳定可靠的传输数据等优点。硬件设计方面采用了FMC标准,能够以替换FMC子卡的方式,低成本的改变扩展和前端电子学连接的数据接口,让方案从硬件层面具备了适用于多种数据获取系统的能力。逻辑设计时制定了统一规范,使用标准的接口和数据格式,并且划分了不同的功能模块,能够方便的添加自定义逻辑模块,或者是根据需求对单独模块修改和替换,可以满足方案在实际应用时的各种需求变化。本论文的组织结构上安排如下:第一章介绍了大规模数据获取系统下数据汇聚方案的研究背景和意义,确定了方案的设计目标和需要解决的关键技术问题,同时调研了国内外典型的数据获取系统的现状和发展趋势作为设计参考,并且给出了本文的研究内容和结构安排。第二章首先通过分析比较和调研接口技术明确了如何实现关键技术,从而确立了方案的整体设计内容,之后从硬件设计和逻辑设计两个方面介绍了数据汇聚的总体设计方案。第叁章介绍了前端数据接收功能的实现。首先分析了方案需求的FMC子卡接口类型和数据率,然后使用Aurora IP核实现接收高速数据功能,并且利用IP核自身能够双向传输的特性设计了阻塞机制,确保了数据在传输过程中不会丢失或是重传。第四章介绍了多节点数据汇聚功能的实现。首先介绍了基于传输协议实现的数据合并机制面对两类数据获取系统的不同做法,然后介绍了通过信号仲裁实现接口轮流传输的接口调度机制,最后介绍了基于DDR3的存储功能实现的数据缓存功能。第五章从逻辑模块设计和驱动程序开发两个方面,完整的介绍了数据汇聚方案的后端数据高速传输功能是如何实现的。首先介绍了和PCIe总线协议有关的基础知识作为参考,然后介绍了调用PCIe IP核和DMA引擎实现的逻辑功能,最后介绍了驱动程序的中断方式和响应机制,以及具体DMA传输工作流程。第六章介绍了逻辑仿真的结果和联合工作站进行的传输测试结果。根据设计的测试方案,首先对逻辑模块的功能进行了仿真,之后在工作站上联合PIFC接口卡和驱动程序进行了传输测试和阻塞机制测试,用测试数据证明了该数据汇聚方案是可行的。第七章对整个论文的内容进行了总结,介绍了工作的创新点和不足之处,并且进一步指出了未来的发展方向。(本文来源于《中国科学技术大学》期刊2019-03-01)

何玉林,黄哲学[6](2019)在《大规模数据集聚类算法的研究进展》一文中研究指出聚类是机器学习领域的一个重要研究方向,在过去几十年间,针对不同类型中小规模数据集聚类算法的研究取得了很大的进展,许多行之有效的算法先后问世.然而,这些算法在处理大规模数据集时,计算复杂度较高,处理高维数据的能力较弱,难以获得令人满意的效果.随着大数据时代的到来,数据的采集和存储变得相对容易和便捷,但数据量也与日俱增,因此,针对各种实际应用的聚类问题应运而生,使得专门针对大规模数据集的聚类算法研究成为当前机器学习领域的重要任务之一.本文以大规模数据集的可计算性为切入点,对目前串行和并行计算环境下专门用于处理大规模数据集的聚类算法进行综述和分析,重点评述了串行计算环境下基于样例选择、增量学习、特征子集和特征转换的聚类算法以及并行计算环境下基于MapReduce、Spark和Storm框架的聚类算法,给出了有关未来大规模数据集聚类算法设计思路与应用前景的思考和讨论,包括基于数据并行和训练过程自动化的聚类算法设计策略及关于社交网络大数据聚类算法的若干理解.(本文来源于《深圳大学学报(理工版)》期刊2019年01期)

黄春秋[7](2019)在《大规模数据并行处理应用中的弹性任务调度问题研究》一文中研究指出Hadoop分布式计算框架有效解决了大规模数据并行处理中数据的存储与计算问题,集群资源分配及调度方式对于提高系统的整体性能具有重大的现实意义。目前,相关学者在提高数据本地化,作业完成时间,系统吞吐量等方面提出了各种启发式算法来改善系统的整体性能。然而大部分启发式算法在调度过程中采用贪心策略去调度任务,对于任务缺乏整体性规划,而且由于数据分布式存放在集群中,Shuffle阶段仍会产生网络拥塞造成作业完成时间的延迟。随着数据量的急剧增长,合理的分配及利用资源、释放顶层带宽并加快作业的完成速度是目前面临的新挑战。另外,现实生活中部分用户对于作业有截止时间的要求,现有算法没有考虑到作业不同完成时间产生的不同收益问题,即作业对于截止时间的敏感程度不同。本文针对以上两方面问题,分别设计了调度算法去解决。研究的重点:1.资源分配策略;2.作业调度方法。以上两方面的好坏直接影响平台的整体性能和系统资源的利用率。在现实生活中存在许多重复性的工作具有可预测的属性特征,通过建立相应的模型可以对作业的执行时间进行预测。另外,在研究过程中发现作业调度与矩形条装箱问题有许多相似之处,不同点是任务矩形条的形状会随着分配资源的不同而改变,我们称之为弹性作业。本文首次将集群资源调度问题转化为可变的任务矩形条装箱问题,设计了弹性作业装箱算法(Flexible Job Bin Packing algorithm,简称FJBP)。同时本文结合遗传算法,进一步优化解集。针对作业的截止时间不同敏感性问题,本文首先将作业根据敏感程度进行了分类,设计了既考虑作业紧急程度又考虑作业预执行收益的一种作业弹性与截止时间感知的调度算法(elasticity and Deadline Aware job scheduling algorithm,简称DA)。在Matlab仿真的环境下验证了本文算法的优势。FJBP算法缩短了作业的整体完成时间,提高了系统资源利用率,释放了顶层带宽且一定程度上减少了网络拥塞。DA算法在作业执行前会去衡量作业执行的综合收益,优先选择收益大的去执行。实验表明整体收益平均提高了2.37倍。(本文来源于《天津工业大学》期刊2019-01-11)

汪莉[8](2019)在《德国大规模数据泄露事件疑为“带有政治倾向的攻击”》一文中研究指出新年伊始,德国发生大规模数据泄露事件。数百名政界人士、名人和的私人信息被披露,德国总理默克尔的两个邮箱地址和一个传真号码也被公布在网上。据德国媒体报道,此次数据泄露涉及数百人,内容包括手机号码、邮件地址、聊天记录及私人照片等个人敏感信息。被(本文来源于《中国青年报》期刊2019-01-09)

刘金硕,李扬眉,江庄毅,邓娟,眭海刚[9](2019)在《基于PMVS算法的大规模数据细粒度并行优化方法》一文中研究指出叁维多视角立体视觉算法(patch-based multi-view stereo, PMVS)以其良好的叁维重建效果广泛应用于数字城市等领域,但用于大规模计算时算法的执行效率低下。针对此,提出了一种细粒度并行优化方法,从任务划分和负载均衡、主系统存储和GPU存储、通信开销等3方面加以优化;同时,设计了基于面片的PMVS算法特征提取的GPU和多线程并行改造方法,实现了CPUs_GPUs多粒度协同并行。实验结果表明,基于CPU多线程策略能实现4倍加速比,基于统一计算设备架构(compute unified device architecture, CUDA)并行策略能实现最高34倍加速比,而提出的策略在CUDA并行策略的基础上实现了30%的性能提升,可以用于其他领域大数据处理中快速调度计算资源。(本文来源于《武汉大学学报(信息科学版)》期刊2019年04期)

姚乐[10](2019)在《面向大规模数据的工业过程分布式并行建模及应用》一文中研究指出随着“工业4.0时代”和“工业互联网”的提出,现代工业面临着新的机遇和挑战。自动化系统的日趋完善,工业生产过程加快了信息化与智能化的步伐,迈入了工业大数据时代。高维度、多工况、多单元的大规模数据不仅为数据驱动建模带来了更多有价值的信息,还对传统的单机数据建模方法提出了挑战。如何充分高效地通过工业互联网平台挖掘大规模数据中蕴含的高价值信息,以及如何利用它们解决实际工业过程的问题,是目前过程建模研究的热点方向。本文从大规模工业数据出发,基于分布式并行计算架构研究了不同数据特性和过程特性下的分布式并行建模方法,用于工业过程的质量预报和过程监测。全文的主要研究内容如下:(1)针对工业过程建模面临大规模数据的问题,提出了一种基于MapReduce的分布式并行建模框架,用于关键质量变量预报。将半监督概率主成分回归模型部署到该框架下,在大型分布式数据块上并行训练局部模型,进而采用基于MapReduce的贝叶斯融合算法整合各局部模型的质量预报结果。相较于传统的单机建模算法,基于MapReduce的分布式并行半监督概率主成分回归模型在面对大规模数据时拥有更高的计算效率。并且由于模型训练过程利用了更多的数据,其预测精度也有了显着提升。(2)针对工业过程数据的非线性和半监督特性问题,提出了一种基于分层极限学习机的半监督深度学习模型。利用自编码器的深层网络结构有效地提取数据的非线性特征,并且引入流形正则化方法构造了半监督学习模型。该方法不仅可以深度挖掘有标签数据信息,还可以从大规模无标签样本中提取额外的数据特征。进一步,针对大规模工业数据下多工况过程建模的问题,依据“分而治之”的策略,提出了基于MapReduce的分布式并行极限学习机和分层极限学习机。首先利用分布式并行的K均值算法对过程的多个工况进行划分,进而分别在不同工况内采用分布式并行分层极限学习机训练局部模型,最后利用贝叶斯模型融合算法整合各局部模型,实现了对关键质量变量的在线预报。(3)针对大规模工业数据包含随机噪声和不确定性问题,提出了一种基于参数服务器架构的分布式并行概率建模框架。在该框架下,需要首先利用随机变分推断算法将基于变分推断的概率模型转变为可扩展的随机优化的形式,进而根据参数服务器计算架构对其进行分布式并行部署。本文提出了一种分布式并行高斯混合模型,用于大规模数据下的多工况过程建模。在分布式并行高斯混合模型训练过程的每次迭代中,只需要从大规模数据集中随机选择一个或一小批样本来计算梯度和更新参数,大大提高了模型的训练效率。数据集的可扩展形式使得基于参数服务器架构的分布式建模方法具备轻松处理大型数据集的能力。(4)针对多工况过程半监督数据的质量预报问题,提出了一种基于变分推断的半监督高斯混合模型。为充分利用大规模无标签数据,进一步提出了基于随机变分推断的半监督高斯混合模型,并部署成分布式并行半监督高斯混合模型,显着提升了模型训练效率。大量无标签样本参与模型训练,使得参数求解更加准确,提高了模型用于质量预报的性能。进一步,针对大规模厂级过程的多单元和多工况特性,提出了一种基于分布式并行半监督高斯混合模型的厂级过程分层质量监测算法,在质量相关子空间中,提出了从变量级、单元块级到厂级的的分层质量监测方案。(5)针对大规模工业数据的高维变量特性,在分布式并行概率建模框架下,提出了一种分布式并行概率隐变量建模方法,然后将其分别应用于大规模工业数据下的过程监测和质量预报。并且针对大规模厂级过程提出了厂级分层监测算法。首先将大规模工业过程划分为若干局部单元块,并在每个局部块内建立分布式并行的混合概率隐变量模型,进而在贝叶斯推断下实现了从厂级到单元块级,再到变量级的故障检测与诊断。不仅有效缓解了厂级过程建模的巨大计算任务,也有助于提升厂级故障检测和诊断的准确度。(本文来源于《浙江大学》期刊2019-01-01)

大规模数据场论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

涉及30亿条用户信息,堪称“史上最大规模的数据窃取案”近日进入公诉程序。8月5日获悉,浙江省绍兴市越城区人民检察院对此案7名被告人提起公诉。你有没有过这样的经历:微博莫名关注了一堆陌生营销账号、QQ不知怎么就被加进陌生群组、抖音也“自动”成

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

大规模数据场论文参考文献

[1].张学智,李维帅,张宏志,田升,王海峰.基于MapReduce的SPDK大规模数据高效研究[J].电脑编程技巧与维护.2019

[2].张维.史上最大规模数据窃取案嫌疑人被起诉[N].法制日报.2019

[3].章霞.面向大规模数据的直接优化AUC算法研究[D].安徽大学.2019

[4].王建永,林俊,黄杰韬,方宽.达梦数据库中大规模数据可扩展并行算法[J].科学技术与工程.2019

[5].吴辰晨.大规模数据获取系统下的数据汇聚关键技术研究[D].中国科学技术大学.2019

[6].何玉林,黄哲学.大规模数据集聚类算法的研究进展[J].深圳大学学报(理工版).2019

[7].黄春秋.大规模数据并行处理应用中的弹性任务调度问题研究[D].天津工业大学.2019

[8].汪莉.德国大规模数据泄露事件疑为“带有政治倾向的攻击”[N].中国青年报.2019

[9].刘金硕,李扬眉,江庄毅,邓娟,眭海刚.基于PMVS算法的大规模数据细粒度并行优化方法[J].武汉大学学报(信息科学版).2019

[10].姚乐.面向大规模数据的工业过程分布式并行建模及应用[D].浙江大学.2019

标签:;  ;  ;  ;  ;  

大规模数据场论文-张学智,李维帅,张宏志,田升,王海峰
下载Doc文档

猜你喜欢