论文摘要
随着信息化的深入,企业积累了海量的业务数据,由于这些业务数据存在异构性、不一致性,所以企业无法直接利用这些业务数据,而失去了在竞争的优势。ETL(即数据抽取、转换、加载)工具将面向日常业务的数据转化为面向决策型的数据仓库存储的数据,为企业的管理决策提供可靠的依据。因为ETL工具面临企业海量的业务数据,所以,对数据仓库中ETL工具的执行效率和稳定性要求也越来越高。海量数据的集成对ETL系统的可靠性提出了更高要求。为了提高在数据集成过程中ETL系统的稳定性和可靠性,本文将双备份技术引入ETL系统,设计了一个协调控制服务器双备份的解决方案,克服了目前ETL系统单一协调控制服务器的缺陷,提高ETL系统的稳定性和可靠性。当ETL系统遇到软硬件故障时,主协调控制服务器无法为用户提供应用服务,备用协同控制服务器就接管主协调控制服务器所提供的服务继续为用户提供服务,防止ETL系统中断数据的集成。同时,为了让ETL系统专注于其业务逻辑,因此将日志功能提取出来,形成公用的模块——日志模块,以满足分布式ETL系统对日志功能的要求。本文利用多Agent技术和分布式协同机制,实现分布式ETL系统的日志管理。本文针对ETL作业故障恢复,提出了ETLBatch算法。当某台计算服务器执行ETL作业发生故障时,协调控制服务器将该台计算服务器上故障的ETL作业发送给其他可用的计算服务器并调用ETLBatch算法执行该作业,使得中断的ETL作业能够从故障点继续执行,避免了该ETL作业重新执行,节省了ETL作业故障恢复的开销,保证了ETL系统作业故障恢复的效率。实验结果表明,当ETL系统在执行ETL作业时发生故障时,ETLBatch算法有较好的恢复效率。本文在深入研究多Agent技术、协同控制服务器双备份技术、分布式日志管理技术、ETL作业容错处理技术的基础上,设计并实现了一种具有容错性的ETL系统一-FTETL,为中小型企业提供一个可靠性高的ETL系统。
论文目录
相关论文文献
标签:协调控制服务器双备份论文; 容错论文; 分布式日志论文;