论文摘要
推荐引擎作为一种信息检索和信息过滤的重要方法,用来预测某一用户愿意给予某一项目,比如图书、电影和人的评分或偏好。近些年,在电子商务领域推荐引擎已经变得非常流行。哪一个电影是我可能喜欢的?哪一个电脑是我应该购买的?推荐引擎的目的是在决策过程中支持人们和提供高品质的、易接受的、个性化的建议。分布式计算作为一种新兴的技术使用分布式系统解决计算的问题。在分布式计算中,一个特定的问题被拆分成多个任务供计算机集群运算。Hadoop是一个开源的分布式计算框架用以支撑数据密集型的应用。Hadoop的核心由HDFS和MapReduce组成。HBase是一个基于列的分布式数据库构建在HDFS之上。Mahout是一个可扩展性的开源机器学习算法库目的是提供广泛的机器学习和数据挖掘算法:协同过滤、频繁模式挖掘、分类和聚类等。本文的目标是结合推荐引擎的理论与推荐算法的实现,评估出适合大规模应用的推荐算法,建立起可供原型开发与生产环境使用的分布式推荐引擎,并且将分布式推荐引擎应用到电影数据集之上。本文提供了推荐引擎的定义与分类,比较与评估了基于内容的推荐算法、协同过滤的推荐算法、关联规则的推荐算法以及混合推荐算法。为了能够将推荐算法应用到生产系统中,又集成和部署了Hadoop、HBase、Mahout搭建起分布式推荐引擎的运行时环境,构建一个高可扩展、高可用性、面向服务的基于Hadoop的分布式推荐引擎。
论文目录
摘要ABSTRACT第一章 绪论1.1 课题研究背景1.2 课题研究内容与意义1.3 推荐引擎研究的现状1.4 本文的章节安排第二章 推荐引擎的算法设计2.1 推荐引擎的定义及分类2.2 推荐算法的评估与设计第三章 分布式推荐引擎的设计与实现3.1 集成HADOOP分布式计算框架3.1.1 集成HDFS分布式文件系统3.1.2 集成MapReduce分布式计算模型3.1.3 集成HADOOP STREAMING计算框架3.2 集成HBASE分布式数据库3.2.1 HBase基本原理3.2.2 集成HBase数据模型3.2.3 HBase系统架构3.2.4 HBase存储格式3.3 集成MAHOUT算法库3.3.1 Mahout算法库原理简介3.3.2 集成协同过滤推荐器3.4 搭建分布式推荐引擎运行时环境3.4.1 应用CDH加速运行时环境设置3.4.2 建立分布式推荐引擎运行时环境3.4.3 系统架构设计与模块功能实现第四章 推荐引擎在电影数据集上的应用4.1 推荐系统算法实现4.1.1 非分布式算法实现4.1.2 分布式协同过滤算法实现4.2 推荐引擎在GROUPLENS电影数据集上的应用4.2.1 基于推荐算法非分布式实现的应用4.2.2 基于推荐算法分布式协同过滤模型的应用第五章 结论5.1 论文总结5.2 不足与展望参考文献致谢
相关论文文献
标签:推荐引擎论文; 分布式计算论文; 数据挖掘论文;