论文摘要
随着互联网的快速发展,电子商务在人们的生活中占据着越来越重要的地位。在电子商务的整个环节中,数据处于最为核心的位置,处理好数据之间的关系,直接影响着电子商务商城的稳定性。本课题基于电子商务商城的建设过程,研究并实现了一系列数据处理的方法。首先,为了获取商城需要展示的数据,需要从多种途径获取数据源,合理的安排好数据处理任务之间的关系,可以保证数据的稳定性以及时效性,课题经过实践完成了一套完整的数据任务分发机制以及数据运行状态的监控体系,在上百种任务并行运行的情况下,可以保证服务器的正常运行以及数据任务处理的稳定,从而保证了数据的有效性。其次,在处理好数据获取任务的基础之上,需要针对海量的数据进行存储。海量数据的存储需要解决可扩展性的问题,即在不修改基础结构的前提下,快速的介入其他的商城的数据;同时需要处理好过期数据删除之后表空间利用的问题;最后存储系统需要容纳海量的数据,随着时间的延长,数据量急剧增加,数据存储系统需要具备海量的存储能力。基于以上问题,本课题通过两种存储方式的实践进行总结,完成了一套可扩展性的存储方案,在每天几十G数据进行更新的前提下,系统运行稳定并且拥有很好的普遍适用性。最后,在解决了数据的获取以及数据的存储之后,数据的检索系统直接影响着用户的体验,检索系统的优劣直接影响着用户的选择。检索系统需要解决检索数据的有效性、准确性以及检索的效率。本课题通过sphinx检索引擎的研究,结合数据库共同实现平台的检索系统,可以为用户提供关键字以及属性的筛选,在海量数据存储的前提下,可以实现毫秒级数据的精确检索。通过以上的数据获取、存储以及检索一系列的数据处理方案,构建了线上运行的产品:淘宝服务平台、dell在线销售计划以及百度网盟数据推广等项目。实践证明上述方法具有很强的可扩展性以及稳定性,较好地解决了海量数据的处理。
论文目录
摘要ABSTRACT第一章 绪论1.1 课题的来源与意义1.2 国内外研究现况综述1.3 课题主要研究内容1.4 本文的章节安排1.5 本章小结第二章 平台数据获取系统的设计研究2.1 平台数据获取方案2.1.1 API数据获取2.1.2 网页wget方式获取2.2 Gearman任务管理系统应用2.3 Mongodb数据库的应用实现2.4 平台数据处理分布式任务的实现2.4.1 平台数据的任务概况2.4.2 平台分布式任务的实现2.5 平台数据监控系统的实现2.5.1 监控系统的实现2.5.2 独立任务的处理2.5.3 依赖任务的处理2.5.4 出错任务的处理2.6 本章小结第三章 平台数据存储方案的研究3.1 数据存储简介3.2 数据库设计方式概要3.2.1 横向切分3.2.2 纵向切分3.3 系统数据存储的实现3.3.1 Hash函数的构造3.3.2 系统数据横向存储实现3.3.3 系统数据纵向存储实现3.3.4 系统数据存储总结3.4 本章小结第四章 平台数据检索的方法以及实现4.1 数据检索方案概要4.1.1 数据库检索4.1.2 第三方检索引擎4.1.3 平台检索方案4.2 平台检索系统的实现4.3 平台数据查询方式实现4.3.1 关键字查询匹配4.3.2 按照属性筛选4.4 平台可扩展性的研究4.4.1 数据存储可扩展性4.4.2 检索系统的扩展性4.5 平台的实现以及结果4.5.1 系统相关部分介绍4.5.2 系统实现界面4.5.3 系统优缺点4.6 本章小结第五章 实验结果分析5.1 系统检索效率分析5.2 系统稳定性分析5.3 本章小结第六章 结束语6.1 本文的主要工作6.2 进一步的工作参考文献致谢攻读学位期间发表的学术论文作者和导师简介硕士研究生学位论文答辩委员会决议书
相关论文文献
标签:电子商务论文; 数据存储论文; 海量数据论文; 全文检索论文; 实时数据查询论文;