面向用户个性化推荐的日志分析系统设计与实现

面向用户个性化推荐的日志分析系统设计与实现

论文摘要

近年来,随着计算机的普及和互联网的发展,使用互联网的用户数和互联网上充斥的各类信息量突飞猛进,如何快速从互联网海量的数据信息中获取用户所关注的信息已成为用户最为关心的问题之一,也是互联网服务网站能够吸引用户使用的要点。同时网络视频业务也已成为互联网应用的最大热点,随着媒体事业的发展和台网联动的推广,提供网络视频业务的网站数量和互联网上视频数量也越来越多,通过关键字查询的搜索引擎显然已无法满足用户快速获取视频的需求,此时,基于主动推送的推荐引擎应运而生。互联网的用户数量和视频数量的急剧增长为推荐系统带来了新的问题。首先,海量用户日志信息的存储对推荐系统的存储模块提出了新的挑战,需保障存储数据的可靠性和存储容量的可扩展性;其次,海量日志信息的分析和推荐计算对系统处理数据的性能提出了更高的要求;最后,推荐引擎推送的视频信息要能够吸引用户,这就要求推荐引擎的推荐结果具有较高的准确有效性。本文针对推荐系统在面对海量数据信息时需要解决的各种问题,基于Hadoop分布式平台及其系列子项目提出了一种解决方案——面向用户个性化推荐的日志分析系统。该系统利用Hadoop分布式文件系统(HDFS)的可靠性和可扩展性的特点,使用基于HDFS的数据仓库Hive作为海量日志信息的存储平台,保证了用户日志信息存储的可靠性和可扩展性;利用Hadoop并行计算编程模型Map/Reduce的高效性特点,使用能够将SQL语句转换为Map/Reduce任务执行的Hive作为用户日志信息分析的平台,并使用借助Map/Reduce实现并行推荐计算的机器学习算法库Mahout封装的协同过滤算法来实现推荐引擎,实现了高性能的日志分析和推荐计算;最后通过分析Mahout源码和视频推荐的特点,优化了Mahout的推荐算法源码,以期提高推荐结果的准确有效性。为了对系统进行验证,本文设计了详细的测试方案。首先,从功能上验证了面向用户个性化推荐的日志分析系统的可用性和系统日志存储模块的可靠性、可扩展性;其次,从性能上验证了日志分析和推荐计算效率的提升;接着验证了优化后的推荐算法对推荐结果准确有效性的提升;最后通过搭建真实的实验环境,验证了系统的实际工作效果。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 相关工作
  • 1.2.1 畅邮视频搜索系统介绍
  • 1.2.2 视频推荐发展现状
  • 1.3 本文研究内容及贡献
  • 1.3.1 面临的挑战
  • 1.3.2 系统目标
  • 1.3.3 解决方案
  • 1.4 本文组织结构
  • 1.5 本章小结
  • 第二章 搜索引擎与推荐引擎的研究与分析
  • 2.1 搜索引擎与推荐引擎分析
  • 2.2 推荐引擎技术的研究与分析
  • 2.2.1 推荐系统架构分析
  • 2.2.2 推荐算法研究与分析
  • 2.2.3 几种推荐引擎的研究
  • 2.3 本章小结
  • 第三章 面向用户个性化推荐的日志分析系统概述
  • 3.1 系统框架模型概述
  • 3.2 系统功能模块简介
  • 3.2.1 日志收集模块
  • 3.2.2 日志存储分析模块
  • 3.2.3 推荐引擎模块
  • 3.2.4 结果反馈模块
  • 3.3 系统实现工具的研究与分析
  • 3.3.1 Apache Hadoop项目简介
  • 3.3.2 数据存储分析工具的研究与分析
  • 3.3.3 推荐工具的研究与分析
  • 3.4 本章小结
  • 第四章 面向用户个性化推荐的日志分析系统设计与实现
  • 4.1 系统架构设计
  • 4.2 可行性分析
  • 4.3 系统设计与实现
  • 4.3.1 日志收集模块
  • 4.3.2 日志存储分析模块
  • 4.3.3 推荐引擎模块
  • 4.3.4 结果反馈模块
  • 4.4 系统数据流分析
  • 4.5 本章小结
  • 第五章 Mahout推荐工具源码分析及优化
  • 5.1 Mahout源码框架概况
  • 5.2 推荐工具Taste源码分析
  • 5.2.1 DataModel模块
  • 5.2.2 Similarity模块
  • 5.2.3 UserNeighborhood模块
  • 5.2.4 Recommender模块
  • 5.2.5 Evaluator模块
  • 5.3 Mahout推荐工具源码优化
  • 5.3.1 依据时间遗忘曲线原理进行优化
  • 5.3.2 相似度计算优化
  • 5.4 本章小结
  • 第六章 实验及测试
  • 6.1 实验环境
  • 6.1.1 硬件配置
  • 6.1.2 软件配置
  • 6.2 面向用户个性化推荐的日志分析系统功能及性能测试
  • 6.2.1 Hadoop集群、Hive及Mahout的功能测试
  • 6.2.2 Hive数据定义与操作功能测试
  • 6.2.3 可靠性与可扩展性测试
  • 6.2.4 日志分析和推荐计算效率测试
  • 6.3 个性化推荐结果测试
  • 6.3.1 测试场景
  • 6.3.2 测试指标
  • 6.3.3 测试结果
  • 6.4 实际运行试验
  • 6.5 本章小结
  • 第七章 总结和展望
  • 7.1 本文工作总结
  • 7.2 今后研究展望
  • 参考文献
  • 缩略语
  • 致谢
  • 攻读学位期间发表的学术论文和科研情况
  • 相关论文文献

    标签:;  ;  ;  

    面向用户个性化推荐的日志分析系统设计与实现
    下载Doc文档

    猜你喜欢