论文摘要
高端容错计算机作为事务处理能力极强、可用性极高的服务器系统,广泛应用在了金融、电信、能源、交通、航空等国家关键业务领域中。这些关键行业对系统的处理能力和容错能力有严苛的要求,因为系统一旦失效就可能会造成无法挽回的巨大损失,所以高端容错计算机在投入使用之前必须对其处理能力和可用性进行严格的评测,故障注入技术是进行评测的有效方法。日志中记录了系统运行过程的中间状态,通过日志分析可以验证故障注入、容错机制等是否有效,通过对故障日志的提取可构建高端容错计算机故障库,对故障分布、故障传播和故障预测的研究都有非常重要的意义。本文首先对国内外日志分析工具和高性能计算机故障研究的现状进行了分析,发现:1)已有的日志工具中没有专门针对高端容错计算机故障日志进行管理和分析的,并且由于统计分析都是在本地进行,严重影响了被分析服务器对其他用户提供服务的效率;2)我国在高性能计算机故障的研究方面经验不足,可用的故障集有限。因此,本文围绕着数据挖掘技术展开研究,设计并实现了一种基于高端容错计算机的自动化、智能化的故障日志管理与分析系统,旨在对高端容错计算机系统中的各类日志文件进行故障的抽取、格式化和分析,建立初步的高端容错计算机故障库,同时,由于系统采用C/S架构,极大地提高了被分析服务器对其他用户提供服务的效率;并在此基础上,引入极值理论和数据拟合方法,提出了一种基于故障日志分析系统的故障分布研究方案。为实现同时对多台高端容错计算机日志的统计分析,本文将自动化测试框架STAF引入到了故障日志分析系统的设计中,面向HP RX6600和Superdome两台高端容错计算机,成功搭建了一个分布式的实验环境,并通过对Superdome实验结果的详细分析,验证了系统的有效性。最后,本文应用设计的故障日志分析系统,对CMU公布的公共计算机故障仓库中的LANL数据集进行了统计分析,并依据前文提出的故障分布研究方案对特定类型故障的故障间隔时间(Time Between Failure, TBF)进行了建模。
论文目录
摘要Abstract第1章 绪论1.1 课题背景1.1.1 课题来源1.1.2 故障日志分析系统设计的必要性1.2 国内外研究现状1.2.1 日志分析工具现状1.2.2 高性能计算机故障研究现状1.3 数据挖掘技术研究综述1.3.1 数据挖掘技术概述1.3.2 数据挖掘常用分析方法1.3.3 数据挖掘的过程1.3.4 关联规则挖掘1.4 本文的主要研究内容1.5 本文结构第2章 基于故障日志分析系统的故障分布研究2.1 高端容错计算机故障分布的极值理论2.2 极值统计理论2.2.1 极值理论简介2.2.2 吸引域的确定2.2.3 极值分布的参数估计2.3 故障数据的选取2.4 基于故障日志分析系统的故障分布研究方案2.5 本章小结第3章 故障日志分析系统的整体设计3.1 系统基本设计目标3.2 系统功能设计3.2.1 系统核心统计、分析功能3.2.2 系统的其他功能3.3 系统总体架构3.3.1 功能架构3.3.2 层次架构3.3.3 体系架构3.4 系统工作流程3.4.1 系统启动流程3.4.2 日志分析流程3.4.3 统计分析结果展示流程3.5 本章小结第4章 故障日志分析系统的详细设计与实现4.1 日志数据分析的实现思路4.2 日志预处理4.2.1 日志采集模块4.2.2 模板库管理模块4.2.3 日志预处理模块4.2.4 预处理结果接受模块4.3 日志分析4.3.1 日志统计分析模块4.3.2 数据挖掘算法的实现4.3.3 报表图形引擎4.4 基本功能4.4.1 查询引擎4.4.2 数据库操作模块4.4.3 主界面4.5 本章小节第5章 系统的应用及故障分布模型的建立5.1 分布式实验环境的建立5.2 实验流程5.3 实验结果及分析5.3.1 故障分布情况分析5.3.2 关联规则挖掘结果及分析5.4 故障分布模型的建立5.4.1 LANL 故障集的统计分析5.4.2 利用极值理论建模5.4.3 利用数据拟合建模5.4.4 故障分布模型结果5.5 本章小结结论参考文献攻读硕士学位期间发表的论文致谢
相关论文文献
标签:高端容错计算机论文; 日志分析论文; 数据挖掘论文; 极值理论论文;