面向海量数据库的数据流统计研究与实现

面向海量数据库的数据流统计研究与实现

论文摘要

随着计算机技术的发展,海量数据库应用越来越普遍。数据流技术在数据库领域已经获得了广泛的研究,许多文章提出了优秀的算法和产品,数据流成为一种成熟的数据库模型。数据库加载数据具有连续、快速、随时间变化等一系列数据流特点,可以利用数据流模型对其进行处理。本文从入库之前的数据处理出发,通过研究数据流统计技术,提出了一个数据流统计服务的体系结构,实现了对加载数据流的信息统计处理。本文的应用环境是一个海量统计应用数据库,针对这个特点,本文还实现了对加载数据流中异常数据的统计处理,不仅对数据流中的异常数据进行统计,还保证异常统计结果能够及时更新到统计库中,使数据库后续处理结果与数据库中的数据记录保持一致。同时,为了使添加统计服务之后的加载服务满足性能的需求,减轻后续查询服务的压力,还针对数据流中存在的大量重复数据,提出并实现了一个基于短文本数据库的高效去重方法。本文的末尾对统计服务进行了测试,验证了统计服务工作的正确性。利用数据流统计结果维护语义缓存作为数据流统计服务的具体应用实例是本文研究的重点。数据流统计应用于语义缓存维护,能够降低聚集查询语句的响应时间,实现了处理压力从查询服务器转移到加载服务器,能够提高系统的整体性能和稳定性。本文主要贡献:1.提出了一个面向海量数据库加载的数据流统计服务的体系结构,该统计服务能在对加载过程影响极小的情况下高效率的完成统计;2.实现了对异常数据流的统计方法。通过采取多数据流的处理方法,在正常数据流滑动窗口之外还维护了一个异常数据流滑动窗口,动态分配基本窗口完成了异常数据的统计,并实现了将延迟数小时数据的统计结果合并更新到统计库中和查询结果中;3.研究了语义缓存维护,通过统计结果和语义缓存技术结合起来,提出了一种解决语义缓存维护性能的方法。通过将查询数据库服务器的压力转移到加载过程,提高了系统的整体性能和稳定性;4.研究了数据清洗技术,针对短文本重复数据产生的特点,提出了一个面向海量短文本数据库的高效去重方法。降低了数据规模,提升了数据库后续处理的性能。根据文中提到的技术,我们在大规模事务处理中间件StarTPMonitor上实现了一个面向海量加载的数据流统计服务。该服务通过统计将统计的摘要信息和语义缓存相结合,实现了语义缓存维护性能的提高,使系统整体查询性能得到大幅提升。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 应用背景
  • 1.2 研究背景
  • 1.3 研究现状
  • 1.3.1 数据流
  • 1.3.2 语义缓存
  • 1.3.3 数据清洗
  • 1.4 本文工作
  • 1.5 论文结构
  • 第二章 相关技术研究
  • 2.1 StarTPMonitor体系结构
  • 2.2 数据流技术
  • 2.2.1 基于界标模型的方法
  • 2.2.2 基于滑动窗口模型的方法
  • 2.2.3 数据流研究的要求和挑战
  • 2.3 语义缓存技术
  • 2.3.1 表缓存
  • 2.3.2 动态视图缓存
  • 2.3.3 块缓存
  • 2.4 数据清洗技术
  • 第三章 数据流统计服务设计
  • 3.1 体系结构设计
  • 3.1.1 统计服务设计
  • 3.1.2 数据去重设计
  • 3.1.3 统计服务设计小结
  • 3.2 关键技术
  • 3.2.1 滑动窗口设计
  • 3.2.2 统计规则
  • 3.2.3 摘要数据
  • 3.2.4 查询结果维护
  • 3.2.5 数据去重性能
  • 第四章 数据流统计服务实现
  • 4.1 元信息收集对象的实现
  • 4.2 摘要信息生成对象的实现
  • 4.3 查询结果生成对象的实现
  • 4.4 异常数据统计对象的实现
  • 4.5 数据去重模块的实现
  • 第五章 性能测试
  • 5.1 测试环境
  • 5.1.1 硬件平台
  • 5.1.2 软件平台
  • 5.1.3 其他配置
  • 5.2 测试准备
  • 5.3 测试结果
  • 5.3.1 测试一:测试语义缓存中不存在的查询语句
  • 5.3.2 测试二:测试语义缓存中存在的查询语句
  • 5.4 结论
  • 第六章 结束语
  • 致谢
  • 参考文献
  • 附录A: 作者在攻读硕士学位期间论文发表情况
  • 附录B: 作者在攻读硕士学位期间参与的科研项目
  • 相关论文文献

    • [1].基于统计分析的分享型数据库需求无约束估计模型[J]. 淮阴工学院学报 2019(05)
    • [2].基于数据库的网络课题开发策略[J]. 通讯世界 2019(12)
    • [3].基于陕西省地质调查数据库融合理论方法[J]. 陕西地质 2019(02)
    • [4].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2019(05)
    • [5].面向异地双活系统的数据库改造方法[J]. 微型电脑应用 2020(01)
    • [6].危险化学品数据库的发展现状与展望[J]. 合成材料老化与应用 2020(01)
    • [7].舰船电磁环境数据库的设计与实现[J]. 装备环境工程 2020(03)
    • [8].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2019(06)
    • [9].欧洲职业培训发展中心启动新职业教育和培训数据库[J]. 世界教育信息 2020(02)
    • [10].大数据思维下数据库教育模式改革探索[J]. 计算机产品与流通 2020(03)
    • [11].数据库的安全重要性以及带来的风险[J]. 计算机产品与流通 2020(04)
    • [12].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2020(01)
    • [13].政治学跨国比较研究中的数据库及其运用[J]. 信息系统工程 2020(04)
    • [14].关于中国数据库调查方法与资本化核算方法研究[J]. 统计研究 2020(05)
    • [15].实现灾备数据库同步[J]. 网络安全和信息化 2020(01)
    • [16].基于全局目录的集中型数据库分布式加锁仿真[J]. 计算机仿真 2020(04)
    • [17].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2020(02)
    • [18].医院围术期麻醉专科数据库的建设与思考[J]. 中国卫生信息管理杂志 2020(03)
    • [19].基于分布式的数据库分库与分表策略研究[J]. 电脑知识与技术 2020(14)
    • [20].主报警数据库在报警管理的应用探讨[J]. 当代化工研究 2020(15)
    • [21].最新版《中国评价核数据库》发布[J]. 中国核电 2020(03)
    • [22].数据库的知识产权保护范式研究[J]. 政法学刊 2020(04)
    • [23].中国核心期刊(遴选)数据库收录证书[J]. 防护工程 2020(03)
    • [24].海洋细菌基质辅助激光解吸电离飞行时间质谱鉴定数据库的建立[J]. 解放军医学院学报 2020(07)
    • [25].大数据时代临床数据库在肿瘤研究中的应用[J]. 传染病信息 2020(04)
    • [26].数据库在计算软件开发中的管理分析[J]. 电脑编程技巧与维护 2020(08)
    • [27].基于语义标注的数据库元数据质量评估方法[J]. 计算机产品与流通 2020(11)
    • [28].基于数据库视角下解读大数据的研究进展与趋势[J]. 计算机产品与流通 2020(11)
    • [29].《感染、炎症、修复》杂志检索数据库[J]. 感染、炎症、修复 2018(03)
    • [30].《感染、炎症、修复》杂志检索数据库[J]. 感染、炎症、修复 2018(04)

    标签:;  ;  ;  ;  ;  ;  ;  

    面向海量数据库的数据流统计研究与实现
    下载Doc文档

    猜你喜欢