论文摘要
分布计算系统作为一个非常热门的领域,近年来在其理论和研究方面都取得了许多重要成果。相对于传统的单机系统而言,分布计算系统具有很多优点,比如:系统灵活适应性好;坚定性好容错能力强;能大幅度提高计算能力;性价比高等。但是其也有一些缺点,比如:增加了软件的复杂性和开发难度;系统性能测试、程序调试和故障诊断比较困难;较多地依赖于通信技术等。本文借鉴了分布计算系统容错能力强,允许部分失效的特性,用硬件和数据的冗余实现了容错功能,设计并实现了一种利用分布式检查点和消息日志技术解决日常系统节点故障问题的方案。通过这种方案地实施,有效地解决了进行长时间计算或不间断服务的主机,在无人职守的情况下,发生故障时无法得到保障的问题。同时,为了便于本方案的使用,本文提供了一些函数接口,减少了今后开发此种应用的难度。经过测试,本文工作达到了预期效果,对于实践和进一步的理论研究都具有一定的指导意义。
论文目录
提要第一章 引言1.1 分布计算系统的产生和发展1.2 分布计算系统概念1.3 分布计算系统的优缺点1.3.1 分布计算系统的优点1.3.2 分布计算系统的缺点1.4 本文的目的及主要研究内容1.5 本章小结第二章 分布计算系统中节点故障处理方法的研究与分析2.1 分布计算系统中的故障模型2.2 节点故障的处理2.3 检查点算法2.3.1 独立式检查点算法2.3.2 协调式检查点2.4 用检查点方法解决分布计算系统节点故障的讨论2.5 本章小结第三章 解决节点故障问题方案的设计3.1 整体方案的设计3.1.1 检查点数据保存方案设计3.1.1.1 检查点保存哪些数据3.1.1.2 检查点数据到哪里3.1.1.3 检查点数据如何保存3.1.2 消息处理方案设计3.1.3 节点故障的检测和进程的恢复3.2 所用技术介绍3.2.1 组播技术介绍3.2.1.1 多播组地址3.2.1.2 多播的工作方式3.2.2 流水线介绍3.2.3 消息队列介绍3.3 系统体系结构设计3.4 系统接口设计3.5 消息管理机构设计3.6 检查点数据管理机构设计3.7 任务登记管理机构设计3.8 系统管理员机构设计3.9 本章小节第四章 解决节点故障问题方案的实现4.1 报文的组织、分类和功能的确定4.1.1 报文的结构4.1.2 报文的类型码4.1.3 报文的编码4.2 系统管理员的实现4.2.1 远程报文接收线程的实现4.2.2 系统链表创建线程的实现4.2.3 消息链表管理线程的实现4.2.4 消息链表一致性管理线程的实现4.2.5 消息链表一致性协调线程的实现4.2.6 检查点链表管理线程的实现4.2.7 检查点链表一致性管理线程的实现4.2.8 检查点链表一致性协调线程的实现4.2.9 任务登记链表管理线程的实现4.2.10 任务登记链表一致性管理线程的实现4.2.11 任务登记链表一致性协调线程的实现4.2.12 节点状态监控线程的实现4.2.13 计时线程的实现4.2.14 进程组管理线程的实现4.2.15 远程报文发送线程的实现4.2.16 加读、写锁的实现4.3 接口函数的实现4.3.1 注册任务函数的实现4.3.2 删除任务函数的实现4.3.3 激活任务函数的实现4.3.4 检查点数据传送函数的实现4.3.5 检查点数据获取函数的实现4.3.6 消息发送函数的实现4.3.7 消息获取函数的实现4.4 本章小节第五章 实验和性能分析5.1 硬件和软件平台5.2 实验设计与结果分析5.2.1 实验关注项5.2.2 实验目标5.2.3 实验构建5.2.4 实验过程及结果分析5.3 本章小节第六章 工作总结及展望参考文献摘要Abstract致谢
相关论文文献
标签:分布式论文; 检查点论文; 消息日志论文; 节点故障论文; 容错论文;
利用分布式检查点和消息日志技术解决节点故障问题的设计与实现
下载Doc文档