论文摘要
近年来无线网络得到了爆炸性的发展。但与有线网络相比,无线网络中系统出错的概率大大增加,网络入侵也更为隐蔽和多样,这对其可靠性问题的解决提出了巨大挑战。因此,研究移动环境下的容错技术既具有理论意义亦具有实用价值。检查点恢复技术的容错是通过在无错执行期间周期性地保存进程的状态来实现的。出错时进程就从保存的状态处重新开始执行,从而减少出错带来的计算上的损失。在分布式系统中设置检查点时,除了要考虑在单进程应用程序中所存在的减少检查点开销,优化检查点时间间隔等问题外,还要考虑分布式系统中由于进程之间相互发送消息而导致的进程状态间的相互依赖关系。这是分布式系统中的检查点技术的难点。怎样保证形成全局一致性检查点,避免多米诺效应,同时尽量减少由于引入检查点而带来的额外开销,是分布式系统中的检查点协议所要考虑的主要问题。由于移动环境下移动主机的低无线频道带宽、频繁的断开连接,缺少可靠存储等特性,使得传统检查点算法不能很好地适用于移动计算环境。针对上述问题,本文提出了一种高效的检查点算法来降低了协同开销。通过利用通信向量,大量减少了参与到检查点算法中的进程数。在设置检查点过程期间,该算法通过发送检查点请求给依赖的进程以节约用来描绘依赖树的时间。另外,在该算法中进程是非阻塞的,并通过信息捎带技术解决了不一致问题,因此可以避免不必要消息和孤儿消息。与传统的协同检查点算法相比,本文提出的非阻塞检查点算法使得最小数目的进程采取检查点,并且减少了检查点的反应时间,给拥有有限资源的移动系统带来了较少的开销。