基于HADOOP的分布式推荐引擎

基于HADOOP的分布式推荐引擎

论文摘要

推荐引擎作为一种信息检索和信息过滤的重要方法,用来预测某一用户愿意给予某一项目,比如图书、电影和人的评分或偏好。近些年,在电子商务领域推荐引擎已经变得非常流行。哪一个电影是我可能喜欢的?哪一个电脑是我应该购买的?推荐引擎的目的是在决策过程中支持人们和提供高品质的、易接受的、个性化的建议。分布式计算作为一种新兴的技术使用分布式系统解决计算的问题。在分布式计算中,一个特定的问题被拆分成多个任务供计算机集群运算。Hadoop是一个开源的分布式计算框架用以支撑数据密集型的应用。Hadoop的核心由HDFS和MapReduce组成。HBase是一个基于列的分布式数据库构建在HDFS之上。Mahout是一个可扩展性的开源机器学习算法库目的是提供广泛的机器学习和数据挖掘算法:协同过滤、频繁模式挖掘、分类和聚类等。本文的目标是结合推荐引擎的理论与推荐算法的实现,评估出适合大规模应用的推荐算法,建立起可供原型开发与生产环境使用的分布式推荐引擎,并且将分布式推荐引擎应用到电影数据集之上。本文提供了推荐引擎的定义与分类,比较与评估了基于内容的推荐算法、协同过滤的推荐算法、关联规则的推荐算法以及混合推荐算法。为了能够将推荐算法应用到生产系统中,又集成和部署了Hadoop、HBase、Mahout搭建起分布式推荐引擎的运行时环境,构建一个高可扩展、高可用性、面向服务的基于Hadoop的分布式推荐引擎。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究背景
  • 1.2 课题研究内容与意义
  • 1.3 推荐引擎研究的现状
  • 1.4 本文的章节安排
  • 第二章 推荐引擎的算法设计
  • 2.1 推荐引擎的定义及分类
  • 2.2 推荐算法的评估与设计
  • 第三章 分布式推荐引擎的设计与实现
  • 3.1 集成HADOOP分布式计算框架
  • 3.1.1 集成HDFS分布式文件系统
  • 3.1.2 集成MapReduce分布式计算模型
  • 3.1.3 集成HADOOP STREAMING计算框架
  • 3.2 集成HBASE分布式数据库
  • 3.2.1 HBase基本原理
  • 3.2.2 集成HBase数据模型
  • 3.2.3 HBase系统架构
  • 3.2.4 HBase存储格式
  • 3.3 集成MAHOUT算法库
  • 3.3.1 Mahout算法库原理简介
  • 3.3.2 集成协同过滤推荐器
  • 3.4 搭建分布式推荐引擎运行时环境
  • 3.4.1 应用CDH加速运行时环境设置
  • 3.4.2 建立分布式推荐引擎运行时环境
  • 3.4.3 系统架构设计与模块功能实现
  • 第四章 推荐引擎在电影数据集上的应用
  • 4.1 推荐系统算法实现
  • 4.1.1 非分布式算法实现
  • 4.1.2 分布式协同过滤算法实现
  • 4.2 推荐引擎在GROUPLENS电影数据集上的应用
  • 4.2.1 基于推荐算法非分布式实现的应用
  • 4.2.2 基于推荐算法分布式协同过滤模型的应用
  • 第五章 结论
  • 5.1 论文总结
  • 5.2 不足与展望
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    基于HADOOP的分布式推荐引擎
    下载Doc文档

    猜你喜欢