论文题目: 基于主动任务复制的透明容错计算研究与实现
论文类型: 博士论文
论文专业: 计算机应用技术
作者: 戴新发
导师: 袁由光
关键词: 容错计算,主动任务复制,同步,透明性,容错开销
文献来源: 哈尔滨工程大学
发表年度: 2005
论文摘要: 在容错计算系统的研究中,系统同步问题是一个极其复杂的难点问题;另外,在当前以COST技术为基础的软件实现和软硬件协同实现容错计算的热门研究中,容错透明性也一直是一个重点和难点问题;此外,基于卷回的故障恢复机制对系统I/O操作处理存在先天不足,必须加以克服。再者,由于半主动任务复制和被动任务复制的冗余方式不能容忍系统拜占庭故障(Byzantine-fault),而主动任务复制既可屏蔽系统崩溃失效(crash-failure),又可屏蔽拜占庭故障。鉴于这些重要问题,本文通过对一般容错计算系统的实现原理进行深入研究,提出了容错系统的功能模型和同步定理,从而研究并实现了一种基于Linux/PC平台下的TMR主动任务复制透明容错计算系统。着重研究了该系统的同步策略、透明容错算法及其实现技术,并对系统性能进行了评估与优化。首先,根据容错计算的定义与实质,通过Petri网工具,建立一般容错计算系统的功能模型,从理论上对容错计算系统的同步问题进行形式化研究,推导得出一般容错计算系统的同步定理,并在此基础上,对容错计算系统的同步机制进行系统性研究。其次,按同步定理要求,重点对TMR主动任务复制容错系统的同步必要条件进行研究,通过排除主动复制任务进程的局部非确定性操作对系统同步机制的影响,使系统同步必要条件得到满足,从而设计实现TMR主动任务复制容错系统的同步策略和同步算法。为使系统容错功能对用户透明,本文专门研究设计了一种透明同步机制,它利用操作系统的ptrace()调用暂停容错系统应用任务的主动复制进程,解析主动复制任务进程中的系统调用,修改系统调用返回值,从而实现了系统透明容错算法。而且利用Markov RewardModel工具,基于TMR冗余结构,本文还对主动任务复制容错计算系统的容错开销进行了理论计算,得出系统容错开销与主动复制任务进程的同步频率成正比。基于PC/Linux系统平台,通过主动任务复制系统的透明容错算法,本文设计实现了一个TMR主动任务复制透明容错计算系统。其中还设计实现了一个两级表决的高可靠表决机制。并利用故障注入技术测试验证了该系统的透明容错功能。最后,基于TMR主动任务复制透明容错计算的PC/Linux平台实现系统,本文对其进行了性能分析与优化。通过实验测试容错系统的容错开销,验证了容错开销与系统任务进程的同步频率成正比。并且,本文对容错开销的基本原因进行了分析,得知同步消息的通信开销和主动复制任务进程的初始异步度是容错开销的最为重要来源。由此,从减少同步消息的通信开销和主动复制任务进程的初始异步度上对系统容错开销进行了优化设计,提出了一种基于以太网的低延迟通信方法LLCE。LLCE通过减少操作系统对网络通信协议层的影响,旁路掉传统TCP/IP协议栈,直接对网卡硬件编程,有效减少了网络通信延迟时间,有效增加了网络通信带宽。从而在一定程度上减少了TMR主动任务复制透明容错计算系统的容错开销。
论文目录:
摘要
Abstract
第一章 绪论
1.1 引言
1.2 典型容错计算系统概述
1.2.1 C.vmp 表决式多处理器计算机
1.2.2 Stratus 容错计算机系列
1.2.3 TANDEM INTEGRITY S2 容错计算机
1.2.4 OPIAC/FT 雅派克容错计算机
1.2.5 基于 Cluster 的容错系统
1.3 基于任务复制的容错计算
1.3.1 主动复制
1.3.2 半主动复制
1.3.3 被动复制
1.4 亟待解决的主要问题
1.4.1 同步问题的复杂性
1.4.2 故障模型的局限性
1.4.3 故障恢复的局限性
1.4.4 容错功能的透明性
1.5 论文研究内容
第二章 容错计算系统同步问题研究
2.1 研究现状
2.2 容错计算系统的功能模型
2.2.1 Petri 网模型基本概念
2.2.1.1 Petri 网数学定义
2.2.1.2 Petri 网的同步合成
2.2.1.3 C/E 系统中同步距离
2.2.2 非容错的单模计算系统模型
2.2.2.1 事件驱动系统的 ATN 模型
2.2.2.2 事件驱动系统基于事件和活动的Petri 网模型
2.2.2.3 非容错单模计算系统的扩展 Petri 网模型
2.2.3 容错系统的 Petri 网功能模型
2.2.3.1 容错计算系统建模
2.2.3.2 容错计算系统的同步问题
2.2.3.3 容错计算系统模型的非确定性
2.3 容错系统的同步策略
2.3.1 容错系统同步的涵义
2.3.1.1 同步的定义
2.3.1.2 同步的实质
2.3.2 容错系统的同步定理
2.3.2.1 DMR 容错系统同步定理
2.3.2.2 TMR 容错系统同步定理
2.4 容错系统的同步机制研究
2.4.1 时钟同步
2.4.2 松散同步
2.4.3 任务同步
2.4.4 同步机制综合分析
2.5 本章小结
第三章 主动任务复制容错系统的透明容错机制
3.1 主动任务复制系统同步的必要条件
3.2 主动任务复制系统同步策略
3.3 主动任务复制系统的同步算法
3.4 主动任务复制系统的透明容错原理
3.4.1 Linux 中的 ptrace() 调用
3.4.2 Limix 中的进程控制
3.4.3 透明容错算法
3.4.4 一致同步信息
3.4.5 同步消息池
3.5 系统容错开销计算
3.6 本章小结
第四章 TMR 主动任务复制透明容错计算的实现
4.1 系统体系结构
4.2 系统故障模型
4.3 系统故障检测机制
4.4 系统同步机制
4.5 系统软件结构
4.6 系统容错功能测试与演示
4.6.1 容错功能测试原理
4.6.2 试验演示系统
4.7 本章小结
第五章 系统性能分析与优化
5.1 系统可靠、可用性分析
5.1.1 可用性分析
5.1.2 可靠性分析
5.2 容错开销分析
5.2.1 实验测试
5.2.2 理论分析
5.3 通信开销优化
5.3.1 传统 TCP/IP 网络通信延迟分析
5.3.2 LLCE 原理
5.3.2.1 分帧
5.3.2.2 缓冲管理
5.3.2.3 流量控制
5.3.2.4 用户接口
5.3.3 通信性能测试与分析
5.3.3.1 回程时延
5.3.3.2 传输带宽
5.3.4 基于 LLCE 的系统容错开销
5.4 初始同步
5.5 时间同步
5.6 本章小结
结论
参考文献
攻读博士学位期间发表的论文和取得的科研成果
致谢
附录
发布时间: 2007-08-21
参考文献
- [1].面向恢复的容错计算技术研究[D]. 李海山.哈尔滨工程大学2007
- [2].分布式系统中容错机制性能优化技术研究[D]. 李磊.国防科学技术大学2007
相关论文
- [1].分布式系统中容错机制性能优化技术研究[D]. 李磊.国防科学技术大学2007
- [2].面向恢复的容错计算技术研究[D]. 李海山.哈尔滨工程大学2007
- [3].高可靠容错实时系统的支撑技术研究[D]. 陈宇.电子科技大学2001
- [4].实时分布容错系统的任务调度技术研究[D]. 周双娥.哈尔滨工程大学2003
- [5].嵌入式计算机控制系统容错策略研究[D]. 王平.中国科学院研究生院(上海微系统与信息技术研究所)2004
- [6].故障诊断与容错控制方法研究[D]. 王德军.吉林大学2004
- [7].容错实时系统可调度性分析研究[D]. 王磊.浙江大学2005
- [8].高可用集群系统中回卷恢复容错技术研究[D]. 王继刚.哈尔滨工程大学2006
- [9].分布式交互仿真中容错和实时技术研究[D]. 马民.国防科学技术大学2006
- [10].大规模分布式仿真系统容错关键技术研究[D]. 刘云生.国防科学技术大学2006