电子商务海量数据的获取、存储以及检索

电子商务海量数据的获取、存储以及检索

论文摘要

随着互联网的快速发展,电子商务在人们的生活中占据着越来越重要的地位。在电子商务的整个环节中,数据处于最为核心的位置,处理好数据之间的关系,直接影响着电子商务商城的稳定性。本课题基于电子商务商城的建设过程,研究并实现了一系列数据处理的方法。首先,为了获取商城需要展示的数据,需要从多种途径获取数据源,合理的安排好数据处理任务之间的关系,可以保证数据的稳定性以及时效性,课题经过实践完成了一套完整的数据任务分发机制以及数据运行状态的监控体系,在上百种任务并行运行的情况下,可以保证服务器的正常运行以及数据任务处理的稳定,从而保证了数据的有效性。其次,在处理好数据获取任务的基础之上,需要针对海量的数据进行存储。海量数据的存储需要解决可扩展性的问题,即在不修改基础结构的前提下,快速的介入其他的商城的数据;同时需要处理好过期数据删除之后表空间利用的问题;最后存储系统需要容纳海量的数据,随着时间的延长,数据量急剧增加,数据存储系统需要具备海量的存储能力。基于以上问题,本课题通过两种存储方式的实践进行总结,完成了一套可扩展性的存储方案,在每天几十G数据进行更新的前提下,系统运行稳定并且拥有很好的普遍适用性。最后,在解决了数据的获取以及数据的存储之后,数据的检索系统直接影响着用户的体验,检索系统的优劣直接影响着用户的选择。检索系统需要解决检索数据的有效性、准确性以及检索的效率。本课题通过sphinx检索引擎的研究,结合数据库共同实现平台的检索系统,可以为用户提供关键字以及属性的筛选,在海量数据存储的前提下,可以实现毫秒级数据的精确检索。通过以上的数据获取、存储以及检索一系列的数据处理方案,构建了线上运行的产品:淘宝服务平台、dell在线销售计划以及百度网盟数据推广等项目。实践证明上述方法具有很强的可扩展性以及稳定性,较好地解决了海量数据的处理。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题的来源与意义
  • 1.2 国内外研究现况综述
  • 1.3 课题主要研究内容
  • 1.4 本文的章节安排
  • 1.5 本章小结
  • 第二章 平台数据获取系统的设计研究
  • 2.1 平台数据获取方案
  • 2.1.1 API数据获取
  • 2.1.2 网页wget方式获取
  • 2.2 Gearman任务管理系统应用
  • 2.3 Mongodb数据库的应用实现
  • 2.4 平台数据处理分布式任务的实现
  • 2.4.1 平台数据的任务概况
  • 2.4.2 平台分布式任务的实现
  • 2.5 平台数据监控系统的实现
  • 2.5.1 监控系统的实现
  • 2.5.2 独立任务的处理
  • 2.5.3 依赖任务的处理
  • 2.5.4 出错任务的处理
  • 2.6 本章小结
  • 第三章 平台数据存储方案的研究
  • 3.1 数据存储简介
  • 3.2 数据库设计方式概要
  • 3.2.1 横向切分
  • 3.2.2 纵向切分
  • 3.3 系统数据存储的实现
  • 3.3.1 Hash函数的构造
  • 3.3.2 系统数据横向存储实现
  • 3.3.3 系统数据纵向存储实现
  • 3.3.4 系统数据存储总结
  • 3.4 本章小结
  • 第四章 平台数据检索的方法以及实现
  • 4.1 数据检索方案概要
  • 4.1.1 数据库检索
  • 4.1.2 第三方检索引擎
  • 4.1.3 平台检索方案
  • 4.2 平台检索系统的实现
  • 4.3 平台数据查询方式实现
  • 4.3.1 关键字查询匹配
  • 4.3.2 按照属性筛选
  • 4.4 平台可扩展性的研究
  • 4.4.1 数据存储可扩展性
  • 4.4.2 检索系统的扩展性
  • 4.5 平台的实现以及结果
  • 4.5.1 系统相关部分介绍
  • 4.5.2 系统实现界面
  • 4.5.3 系统优缺点
  • 4.6 本章小结
  • 第五章 实验结果分析
  • 5.1 系统检索效率分析
  • 5.2 系统稳定性分析
  • 5.3 本章小结
  • 第六章 结束语
  • 6.1 本文的主要工作
  • 6.2 进一步的工作
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文
  • 作者和导师简介
  • 硕士研究生学位论文答辩委员会决议书
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    电子商务海量数据的获取、存储以及检索
    下载Doc文档

    猜你喜欢