基于P2P可伸缩架构的大数据分析平台研究与实现

基于P2P可伸缩架构的大数据分析平台研究与实现

论文摘要

随着互联网应用的飞速发展和信息的社会化,数据呈爆发式的增长,传统的关系数据库在处理分析如此海量的数据时出现性能和可扩展性的瓶颈,所以必须研究新的有效的大数据分析平台。大数据技术目前还没成熟,也没形成统一标准,但工业界已经广泛使用Hadoop作为其大数据处理平台,这也带动了国内学术界对Hadoop相关技术研究。除了Hadoop外,NoSQL相关技术也得到较快发展,涌现了一批优秀的开源项目,如HBase和Cassandra等都被工业界广泛应用。本文基于国家核高基科技重大专项——非结构化数据管理系统LaUDMS来研究和实现对大数据的处理分析相关技术。非结构化数据管理系统LaUDMS重点就是深入研究大数据的存储和分析技术,并结合理论和实践来解决对大规模非结构化数据的管理难题。本文首先对大数据处理分析平台的研究现状进行了综述;其次在综合比较分析现有平台优缺点的基础上介绍了非结构化数据管理系统LaUDMS的内核清华知云Kloud的平台架构;再次是清华知云Kloud中的大数据分析平台的技术研究和实现。技术研究包括深入分析了分布式数据仓库Hive的设计和组件,并将其融合到基于P2P架构的Cassandra内部实现中;为实现Hive组件完全融合到Cassandra中,定义了基于Cassandra自由表的面向对象数据模型来存取Hive的元数据信息;为提高自由表访问效率,描述了基于Cassandra自由表的辅助索引设计和实现,并且将其融合到Hive的分布式索引插件框架中,实现Hive分析的性能优化。该大数据分析平台实现后对某网站用户访问日志进行了实验分析,性能和可用性得到相应的提升,取得良好效果。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 研究背景与意义
  • 1.2 大数据平台架构分类
  • 1.2.1 基于 Master-Slave 主从式架构的平台
  • 1.2.2 基于 P2P 可伸缩架构的平台
  • 1.3 主要工作及贡献
  • 1.4 论文的结构安排
  • 第2章 相关工作
  • 2.1 大数据分析平台体系架构研究
  • 2.1.1 HadoopDB-并行数据库和 MapReduce 的融合
  • 2.1.2 epiC-同时支持 OLTP 和 OLAP 的弹性云计算平台
  • 2.1.3 Brisk-Cassandra 与 Hadoop 的融合之作
  • 2.2 基于自由表的面向对象数据模型
  • 2.2.1 自由表结构
  • 2.2.2 JDO/JPA 的标准接口实现
  • 2.3 基于自由表的辅助索引
  • 2.3.1 辅助索引-行键存储
  • 2.3.2 辅助索引-数据存储
  • 2.4 本章小结
  • 第3章 基于 Cassandra 的知云平台体系结构
  • 3.1 知云平台体系架构
  • 3.2 知云平台的分布式存储
  • 3.2.1 自由表存储
  • 3.2.2 分布式文件系统
  • 3.3 知云平台的分布式计算框架
  • 3.3.1 JobTrakcer 和 TaskTracker 运行在 Cassandra 上
  • 3.3.2 知云平台节点 OLAP 和 OLTP 服务的配置和切换
  • 3.4 本章小结
  • 第4章 知云中的大数据分析平台实现
  • 4.1 Hive 与 Cassandra 融合组件分析
  • 4.1.1 Cassandra CQL 引擎和 Hive Driver 引擎的融合
  • 4.1.2 Hive 元数据存储到 Cassandra 自由表中
  • 4.2 基于 Cassandra 自由表的面向对象数据模型
  • 4.2.1 对象-关系在自由表数据模型上的映射
  • 4.2.2 实现基于 Cassandra 自由表的面向对象数据模型
  • 4.3 知云平台和 Hive 的结合
  • 4.3.1 易用的大数据分析平台
  • 4.3.2 可分析的大数据格式多样化
  • 4.4 实验结果与分析
  • 4.4.1 实验环境
  • 4.4.2 实验结果
  • 4.5 本章小结
  • 第5章 基于 Cassandra 自由表的辅助索引设计和实现
  • 5.1 辅助索引设计
  • 5.1.1 辅助索引格式
  • 5.1.2 辅助索引并发更新机制
  • 5.2 辅助索引实现
  • 5.2.1 辅助索引管理
  • 5.2.2 辅助索引查询
  • 5.3 辅助索引在知云大数据分析平台的应用
  • 5.3.1 Hive 分布式索引框架解析
  • 5.3.2 实现 Hive 分布式索引框架下的辅助索引插件
  • 5.4 实验结果与分析
  • 5.4.1 实验环境
  • 5.4.2 实验结果
  • 5.5 本章小结
  • 第6章 总结与展望
  • 6.1 论文工作总结
  • 6.2 论文工作展望
  • 参考文献
  • 致谢
  • 个人简历、在学期间发表的学术论文与研究成果
  • 相关论文文献

    • [1].P2P负面口碑特征属性挖掘与风险知识识别模型[J]. 武汉纺织大学学报 2019(06)
    • [2].P2P网络贷款监管的不足与完善[J]. 法制与社会 2019(36)
    • [3].P2P投资经验与甄别违约风险的能力——基于学习的视角[J]. 统计研究 2019(12)
    • [4].P2P网贷非法集资风险的法律规制研究[J]. 甘肃金融 2019(12)
    • [5].论网络非法集资犯罪侦防对策——以P2P网贷平台为视角[J]. 湖南警察学院学报 2019(06)
    • [6].P2P现状与大学生网贷的分析探究[J]. 教育教学论坛 2020(05)
    • [7].P2P网络借贷平台企业价值评估研究[J]. 合作经济与科技 2020(06)
    • [8].行为经济学视角下的P2P投资者行为分析[J]. 青海金融 2020(01)
    • [9].试论“监管沙盒”在规范我国P2P网络贷款平台应用路径选择[J]. 全国流通经济 2020(01)
    • [10].P2P融资平台下庞氏骗局的风险与防范[J]. 中国商论 2020(08)
    • [11].我国P2P发展困境分析——基于信息不对称视角[J]. 湖北科技学院学报 2020(01)
    • [12].认证方式对P2P的信用风险影响的有效性分析——基于“人人贷”经验数据[J]. 宿州学院学报 2020(02)
    • [13].P2P网络借贷平台财务风险预警体系研究[J]. 广西质量监督导报 2020(03)
    • [14].区块链在P2P行业征信体系的应用[J]. 科技资讯 2020(11)
    • [15].基于区块链技术的智能制造的P2P协同设计[J]. 机械设计与研究 2020(02)
    • [16].P2P网贷平台非法集资犯罪的刑法规制[J]. 法制博览 2020(15)
    • [17].基于P2P网贷行业失信危机征信系统应用问题探究[J]. 市场研究 2020(03)
    • [18].基于投资者结构的P2P网贷项目评估模型研究[J]. 安徽理工大学学报(社会科学版) 2020(02)
    • [19].P2P架构下环型结构文件热备份系统设计[J]. 软件导刊 2020(06)
    • [20].在营P2P网贷机构接入征信系统问题探讨[J]. 征信 2020(06)
    • [21].P2P网络借贷风险测度及防范[J]. 现代营销(下旬刊) 2020(07)
    • [22].蜂窝网络中P2P通信的关键技术研究[J]. 信息与电脑(理论版) 2020(13)
    • [23].基于P2P网贷行业现状的互联网金融监管未来发展趋势研究[J]. 现代商贸工业 2019(03)
    • [24].由P2P爆雷事件反思互联网金融的监管漏洞[J]. 现代营销(经营版) 2019(02)
    • [25].P2P网贷投资者特征与风险分析[J]. 广西质量监督导报 2019(03)
    • [26].我国互联网金融的风险及前景分析——以P2P网贷为例[J]. 现代营销(下旬刊) 2019(06)
    • [27].P2P平台下的“校园贷”问题研究[J]. 法制博览 2019(20)
    • [28].对互联网金融行业P2P管理问题的探讨[J]. 现代营销(下旬刊) 2019(07)
    • [29].基于P2P网络的计算机辅助教学系统[J]. 信息与电脑(理论版) 2019(21)
    • [30].P2P技术在云平台内容分发中的应用[J]. 信息与电脑(理论版) 2019(22)

    标签:;  ;  ;  ;  

    基于P2P可伸缩架构的大数据分析平台研究与实现
    下载Doc文档

    猜你喜欢