面向海量文本数据的加载技术的研究与实现

面向海量文本数据的加载技术的研究与实现

论文摘要

随着网络的快速发展,网络数据的使用越来越受到人们的关注,海量文本信息的组织和处理问题,是数据挖掘、搜索引擎、电信业务、网络安全、网络监管、网络信息收集等领域所必然面临的问题。网络环境下产生的海量文本数据所具有的鲜明特点是需要全文检索,数据产生速度高、密度大、规模大且不间断。如何存储管理这类海量文本数据已经成为当前的一个重要课题。而现有存储管理技术往往适用于日积月累形成的海量信息,对如何存储管理持续高速的海量文本信息尚缺乏十分有效的技术手段。本文在分析该类海量文本信息特点的基础上,运用分布式对象中间件、ORACLE 10G交换分区技术以及并行任务调度算法,从大规模事务处理中间件StarTPMonitor这个特定应用出发,研究并实现了一种用于面向海量文本数据的加载方案。通过充分比较和分析各种解决方案优劣和适用场合,本文提出了一个基于并行任务调度的面向海量文本数据加载系统的体系结构,并阐述了基于该体系结构设计的加载系统如何解决的诸如海量文本数据加载高性能、高可用的问题等。而后本文基于该体系结构设计并实现了该系统,并着重描述了加载系统的并行任务调度模块,实现了多资源数据库系统下的加载任务之间的协同调度。最后,本文通过一组测试,从功能和性能的角度说明系统在功能特性和性能指标上,均能达到甚至超过预期目标,在适当的任务并行度的前提下,采取并行任务调度算法的海量文本加载服务的数据加载能力要优于传统的加载服务。

论文目录

  • 目录
  • 图目录
  • 表目录
  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.2.1 并行数据库技术
  • 1.2.2 全文索引技术
  • 1.3 本文贡献
  • 1.4 论文结构
  • 第二章 相关技术
  • 2.1 大规模事务处理中间件
  • 2.2 基于ORACLE 10G 交换分区的海量数据存储策略
  • 2.2.1 ORACLE 分区技术
  • 2.2.2 ORACLE 10G 交换分区技术
  • 2.3 任务调度的分类
  • 2.3.1 一般的任务调度分类
  • 2.3.2 任务调度的一个典型分类
  • 第三章 并行加载系统设计
  • 3.1 体系结构设计思想
  • 3.2 体系结构设计
  • 3.3 系统的并行加载方案
  • 3.3.1 表结构以及表划分
  • 3.3.2 数据存储过程举例
  • 3.4 并行加载系统小结
  • 第四章 并行加载关键算法
  • 4.1 加载任务调度问题的定义
  • 4.1.1 加载任务划分
  • 4.1.2 加载任务的调度原则
  • 4.2 加载任务并行调度算法
  • 4.2.1 任务管理
  • 4.2.2 任务并行度
  • 4.2.3 结果管理
  • 4.2.4 资源管理
  • 4.2.5 任务调度与结果分析算法
  • 4.3 任务回滚重做机制
  • 4.4 小结
  • 第五章 并行加载系统实现
  • 5.1 并行加载系统的改进
  • 5.2 任务调度系统模型
  • 5.2.1 任务管理器对象TaskManager 的实现
  • 5.2.2 任务对象CTask 的实现
  • 5.2.3 任务队列对象CTaskQueue 的实现
  • 5.2.4 资源管理器对象CResourceManager 的实现
  • 5.2.5 结果项管理器对象CReusltManager 的实现
  • 5.2.6 任务调度器对象CTaskDispathcer 的实现
  • 5.2.7 结果分析器对象CResultAnalyzer 的实现
  • 5.2.8 重做日志管理器CRedoLogManager 的实现
  • 5.2.9 任务回滚重做器对象CTaskRestorer 的实现
  • 5.3 任务调度系统的主要工作流程
  • 5.3.1 添加加载任务流程
  • 5.3.2 任务调度流程
  • 5.3.3 结果分析流程
  • 5.3.4 任务回滚重做流程
  • 第六章 并行加载系统测试
  • 6.1 测试环境及其部署
  • 6.2 交换分区加载方式性能测试
  • 6.3 ORACLE SQL*LOADER 性能测试
  • 6.4 索引并行化测试
  • 6.4.1 节点内并行索引
  • 6.4.2 节点间并行索引
  • 6.5 任务并行度测试
  • 6.6 测试小结
  • 6.6.1 功能特性
  • 6.6.2 性能特性
  • 第七章 总结及展望
  • 致谢
  • 攻读硕士学位期间所发表的论文
  • 攻读硕士学位期间参与的科研项目
  • 参考文献
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    面向海量文本数据的加载技术的研究与实现
    下载Doc文档

    猜你喜欢