论文摘要
随着网络的快速发展,网络数据的使用越来越受到人们的关注,海量文本信息的组织和处理问题,是数据挖掘、搜索引擎、电信业务、网络安全、网络监管、网络信息收集等领域所必然面临的问题。网络环境下产生的海量文本数据所具有的鲜明特点是需要全文检索,数据产生速度高、密度大、规模大且不间断。如何存储管理这类海量文本数据已经成为当前的一个重要课题。而现有存储管理技术往往适用于日积月累形成的海量信息,对如何存储管理持续高速的海量文本信息尚缺乏十分有效的技术手段。本文在分析该类海量文本信息特点的基础上,运用分布式对象中间件、ORACLE 10G交换分区技术以及并行任务调度算法,从大规模事务处理中间件StarTPMonitor这个特定应用出发,研究并实现了一种用于面向海量文本数据的加载方案。通过充分比较和分析各种解决方案优劣和适用场合,本文提出了一个基于并行任务调度的面向海量文本数据加载系统的体系结构,并阐述了基于该体系结构设计的加载系统如何解决的诸如海量文本数据加载高性能、高可用的问题等。而后本文基于该体系结构设计并实现了该系统,并着重描述了加载系统的并行任务调度模块,实现了多资源数据库系统下的加载任务之间的协同调度。最后,本文通过一组测试,从功能和性能的角度说明系统在功能特性和性能指标上,均能达到甚至超过预期目标,在适当的任务并行度的前提下,采取并行任务调度算法的海量文本加载服务的数据加载能力要优于传统的加载服务。
论文目录
目录图目录表目录摘要ABSTRACT第一章 绪论1.1 研究背景1.2 研究现状1.2.1 并行数据库技术1.2.2 全文索引技术1.3 本文贡献1.4 论文结构第二章 相关技术2.1 大规模事务处理中间件2.2 基于ORACLE 10G 交换分区的海量数据存储策略2.2.1 ORACLE 分区技术2.2.2 ORACLE 10G 交换分区技术2.3 任务调度的分类2.3.1 一般的任务调度分类2.3.2 任务调度的一个典型分类第三章 并行加载系统设计3.1 体系结构设计思想3.2 体系结构设计3.3 系统的并行加载方案3.3.1 表结构以及表划分3.3.2 数据存储过程举例3.4 并行加载系统小结第四章 并行加载关键算法4.1 加载任务调度问题的定义4.1.1 加载任务划分4.1.2 加载任务的调度原则4.2 加载任务并行调度算法4.2.1 任务管理4.2.2 任务并行度4.2.3 结果管理4.2.4 资源管理4.2.5 任务调度与结果分析算法4.3 任务回滚重做机制4.4 小结第五章 并行加载系统实现5.1 并行加载系统的改进5.2 任务调度系统模型5.2.1 任务管理器对象TaskManager 的实现5.2.2 任务对象CTask 的实现5.2.3 任务队列对象CTaskQueue 的实现5.2.4 资源管理器对象CResourceManager 的实现5.2.5 结果项管理器对象CReusltManager 的实现5.2.6 任务调度器对象CTaskDispathcer 的实现5.2.7 结果分析器对象CResultAnalyzer 的实现5.2.8 重做日志管理器CRedoLogManager 的实现5.2.9 任务回滚重做器对象CTaskRestorer 的实现5.3 任务调度系统的主要工作流程5.3.1 添加加载任务流程5.3.2 任务调度流程5.3.3 结果分析流程5.3.4 任务回滚重做流程第六章 并行加载系统测试6.1 测试环境及其部署6.2 交换分区加载方式性能测试6.3 ORACLE SQL*LOADER 性能测试6.4 索引并行化测试6.4.1 节点内并行索引6.4.2 节点间并行索引6.5 任务并行度测试6.6 测试小结6.6.1 功能特性6.6.2 性能特性第七章 总结及展望致谢攻读硕士学位期间所发表的论文攻读硕士学位期间参与的科研项目参考文献
相关论文文献
标签:海量文本数据论文; 数据加载论文; 分布对象中间件论文; 并行数据库论文; 并行任务调度论文;