利用分布式检查点和消息日志技术解决节点故障问题的设计与实现

利用分布式检查点和消息日志技术解决节点故障问题的设计与实现

论文摘要

分布计算系统作为一个非常热门的领域,近年来在其理论和研究方面都取得了许多重要成果。相对于传统的单机系统而言,分布计算系统具有很多优点,比如:系统灵活适应性好;坚定性好容错能力强;能大幅度提高计算能力;性价比高等。但是其也有一些缺点,比如:增加了软件的复杂性和开发难度;系统性能测试、程序调试和故障诊断比较困难;较多地依赖于通信技术等。本文借鉴了分布计算系统容错能力强,允许部分失效的特性,用硬件和数据的冗余实现了容错功能,设计并实现了一种利用分布式检查点和消息日志技术解决日常系统节点故障问题的方案。通过这种方案地实施,有效地解决了进行长时间计算或不间断服务的主机,在无人职守的情况下,发生故障时无法得到保障的问题。同时,为了便于本方案的使用,本文提供了一些函数接口,减少了今后开发此种应用的难度。经过测试,本文工作达到了预期效果,对于实践和进一步的理论研究都具有一定的指导意义。

论文目录

  • 提要
  • 第一章 引言
  • 1.1 分布计算系统的产生和发展
  • 1.2 分布计算系统概念
  • 1.3 分布计算系统的优缺点
  • 1.3.1 分布计算系统的优点
  • 1.3.2 分布计算系统的缺点
  • 1.4 本文的目的及主要研究内容
  • 1.5 本章小结
  • 第二章 分布计算系统中节点故障处理方法的研究与分析
  • 2.1 分布计算系统中的故障模型
  • 2.2 节点故障的处理
  • 2.3 检查点算法
  • 2.3.1 独立式检查点算法
  • 2.3.2 协调式检查点
  • 2.4 用检查点方法解决分布计算系统节点故障的讨论
  • 2.5 本章小结
  • 第三章 解决节点故障问题方案的设计
  • 3.1 整体方案的设计
  • 3.1.1 检查点数据保存方案设计
  • 3.1.1.1 检查点保存哪些数据
  • 3.1.1.2 检查点数据到哪里
  • 3.1.1.3 检查点数据如何保存
  • 3.1.2 消息处理方案设计
  • 3.1.3 节点故障的检测和进程的恢复
  • 3.2 所用技术介绍
  • 3.2.1 组播技术介绍
  • 3.2.1.1 多播组地址
  • 3.2.1.2 多播的工作方式
  • 3.2.2 流水线介绍
  • 3.2.3 消息队列介绍
  • 3.3 系统体系结构设计
  • 3.4 系统接口设计
  • 3.5 消息管理机构设计
  • 3.6 检查点数据管理机构设计
  • 3.7 任务登记管理机构设计
  • 3.8 系统管理员机构设计
  • 3.9 本章小节
  • 第四章 解决节点故障问题方案的实现
  • 4.1 报文的组织、分类和功能的确定
  • 4.1.1 报文的结构
  • 4.1.2 报文的类型码
  • 4.1.3 报文的编码
  • 4.2 系统管理员的实现
  • 4.2.1 远程报文接收线程的实现
  • 4.2.2 系统链表创建线程的实现
  • 4.2.3 消息链表管理线程的实现
  • 4.2.4 消息链表一致性管理线程的实现
  • 4.2.5 消息链表一致性协调线程的实现
  • 4.2.6 检查点链表管理线程的实现
  • 4.2.7 检查点链表一致性管理线程的实现
  • 4.2.8 检查点链表一致性协调线程的实现
  • 4.2.9 任务登记链表管理线程的实现
  • 4.2.10 任务登记链表一致性管理线程的实现
  • 4.2.11 任务登记链表一致性协调线程的实现
  • 4.2.12 节点状态监控线程的实现
  • 4.2.13 计时线程的实现
  • 4.2.14 进程组管理线程的实现
  • 4.2.15 远程报文发送线程的实现
  • 4.2.16 加读、写锁的实现
  • 4.3 接口函数的实现
  • 4.3.1 注册任务函数的实现
  • 4.3.2 删除任务函数的实现
  • 4.3.3 激活任务函数的实现
  • 4.3.4 检查点数据传送函数的实现
  • 4.3.5 检查点数据获取函数的实现
  • 4.3.6 消息发送函数的实现
  • 4.3.7 消息获取函数的实现
  • 4.4 本章小节
  • 第五章 实验和性能分析
  • 5.1 硬件和软件平台
  • 5.2 实验设计与结果分析
  • 5.2.1 实验关注项
  • 5.2.2 实验目标
  • 5.2.3 实验构建
  • 5.2.4 实验过程及结果分析
  • 5.3 本章小节
  • 第六章 工作总结及展望
  • 参考文献
  • 摘要
  • Abstract
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    利用分布式检查点和消息日志技术解决节点故障问题的设计与实现
    下载Doc文档

    猜你喜欢