论文摘要
随着科研技术的发展,越来越多的科研机构意识到分享他们的数据,提供他们现有的服务,能更大的促进科研的进程,但是这种异构的分布式服务调用和数据获取给科学家带来了挑战。科学工作流管理系统可以屏蔽底层的计算机实现细节,通过一个图形化的操作界面,实现对异构系统的服务和数据查询的流程式的调用。Nebulas是一款轻量级科学工作流管理系统,该系统由国家自然基金支持的科研项目。科学工作流在天文领域还没有得到应用,如果能够提供一个为天文科学家使用的稳定、可靠的科学工作流系统,帮助解决当前面临的数据访问和数据处理的难题,将大大提高天文学家的工作效率。Nebulas系统的最终目标是设计和实现一个可以在天文领域内,给天文学家使用的轻量级的科学工作流系统。Nebulas中数据的传递是系统中比较复杂的部分。本论文中研究、设计并实现科学工作流管理系统Nebulas中数据交换接口技术,实现数据在系统中的传递。本研究包括以下几个方面:第一,本论文研究、设计并实现了一个数据定义,该数据定义包含元数据和数据:元数据描述了该对象中的数据的格式、编码以及语义标记信息等;数据为接收的科研数据。因为在Nebulas中,需要一个数据定义来接收和描述传递执行流程中的数据,通过该数据定义在Nebulas中实现对科研数据的操作。第二,对基于网络的异构资源调用,Nebulas中封装这些资源为执行单元的形式,本论文为执行单元实现了端口结构,通过端口结构,首先,数据定义在执行单元能够有效的传入、传出;其次,可以通过端口结构标识和管理定义好的数据分析流程,让科学家之间可以分享和重复调用他们定义的执行流程。Nebulas中,对资源的调用封装成对应的执行单元后,执行单元需要有效的接收数据,完成计算后返回数据,并且该执行单元能够有效的标识和管理,通过该特性,科学家定义好的验证正确的执行流程可以被重复的利用和科学家之间分享。第三,Nebulas中服务调用封装为执行单元的形式,这些执行单元之间需要传递数据。本论文研究、设计并实现了执行单元之间的连接和控制结构,通过该结构,实现了执行单元之间的数据类型匹配和服务的并行执行等。科学实验中的数据分析,可能需要调用网络上多个服务来执行一个连续的流程,科学家可以定义一个数据执行流程,通过连接和控制结构,实现了实验流程中数据定义在执行流程中不同执行单元之间的传递。关于上述数据交换接口技术的研究成果,已经在轻量级科学工作流管理系统Nebulas中得到应用。利用本论文的研究成果,Nebulas可以实现数据在科学工作流的计算流程中的数据传递。本论文中的数据交换接口技术,不仅可以应用与Nubulas中,该研究成果可以为其他科学工作流管理系统或基于异构资源的资封装调用系统中的数据传递接口问题提供一套现有的参考方案。
论文目录
摘要Abstract第一章 绪论1.1 工作流技术1.1.1 工作流技术的概念1.1.2 工作流技术的起源和发展1.1.3 业务工作流1.2 科学工作流1.2.1 科学工作流技术的概念1.2.2 科学工作流技术产生的背景1.2.3 科学工作流管理系统与业务工作流管理系统1.2.4 科学工作流管理系统的结构1.2.5 科学工作流管理系统的特点1.3 论文的研究重点和论文组织1.4 本章小结第二章 轻量级科学工作流管理系统Nebulas2.1 Nebulas系统介绍2.2 Nebulas系统主要组成部分2.3 Nebulas的数据传递流程2.3.1 Nebulas中传递的数据2.3.2 Nebulas中的执行单元2.3.3 Nebulas中的连接信息2.3.4 Nebulas执行流程的数据输入输出2.3.5 Nebulas执行流程定义2.4 Nebluas执行流程中的数据传递2.4.1 数据传递的流程2.4.2 数据传递遇到的问题2.5 本章小结第三章 数据定义的研究和实现3.1 科研中的数据3.2 数据定义的研究3.2.1 元数据的描述方式的定义3.2.2 数据定义中保存数据方式3.2.3 数据定义的操作接口3.3 数据定义的设计3.3.1 元数据中的MIME编码格式的字符串信息3.3.2 元数据中基于MIME编码的集合数据类型设计3.3.3 元数据的语义标记设计3.3.4 数据在数据定义中的存储方式的设计3.4 数据定义的实现3.4.1 数据定义的描述类3.4.2 数据定义的元数据描述类3.5 数据定义的操作接口的实现3.5.1 DataModelFactory类提供的操作接口3.5.2 DataModelXMLFactory类提供的操作接口3.5.3 元数据描述类MetaData的操作接口3.6 本章小结第四章 执行单元数据传递的研究和实现4.1 Nebulas中的执行单元4.2 执行单元的数据端口的研究4.2.1 数据端口元数据描述方式4.2.2 数据端口的设计和实现4.2.3 本地执行单元的数据接口的实现4.2.4 网络执行单元的数据接口的实现4.3 执行单元中数据传递的实现4.3.1 数据在端口中的传递4.3.2 数据在执行单元中的传递4.4 本章小结第五章 执行流程中数据传递的研究和实现5.1 Nebulas中的执行流程5.2 数据在执行单元之间传递的研究5.2.1 集合数据类型匹配方式5.2.2 不同编码类型的匹配方式5.2.3 文本描述和基于语义描述的匹配方式5.3 执行单元之间的数据传递结构的实现5.3.1 数据在执行单元之间连接的实现5.3.2 执行单元之间数据传递控制的实现5.5 本章小结第六章 Nebulas运行结果展示6.1 Nebulas运行界面6.2 Nebulas运行执行单元的数据匹配实例6.2.1 Nebulas数据传递中的数据封装6.2.2 Nebulas中数据传递中的输入数据展平6.2.3 Nebulas中数据传递中的数据合并执行流程6.2.4 Nebulas中数据传递中的数据交叉传递执行流程6.3 本章小结第七章 总结与展望7.1 论文工作总结7.2 下一步的研究和展望7.2.1 计算内存空间和数据内存空间分离7.2.2 执行单元的并行执行的控制7.2.3 数据传递中的语义标识7.2.4 科学工作流管理系统之间的数据交互致谢参考文献附录A:攻读学位期间发表论文目录附录B:攻读学位期间参与完成的研究成果
相关论文文献
标签:科学工作流论文; 数据传递接口论文;