论文摘要
近年来,随着计算机的普及和互联网的发展,使用互联网的用户数和互联网上充斥的各类信息量突飞猛进,如何快速从互联网海量的数据信息中获取用户所关注的信息已成为用户最为关心的问题之一,也是互联网服务网站能够吸引用户使用的要点。同时网络视频业务也已成为互联网应用的最大热点,随着媒体事业的发展和台网联动的推广,提供网络视频业务的网站数量和互联网上视频数量也越来越多,通过关键字查询的搜索引擎显然已无法满足用户快速获取视频的需求,此时,基于主动推送的推荐引擎应运而生。互联网的用户数量和视频数量的急剧增长为推荐系统带来了新的问题。首先,海量用户日志信息的存储对推荐系统的存储模块提出了新的挑战,需保障存储数据的可靠性和存储容量的可扩展性;其次,海量日志信息的分析和推荐计算对系统处理数据的性能提出了更高的要求;最后,推荐引擎推送的视频信息要能够吸引用户,这就要求推荐引擎的推荐结果具有较高的准确有效性。本文针对推荐系统在面对海量数据信息时需要解决的各种问题,基于Hadoop分布式平台及其系列子项目提出了一种解决方案——面向用户个性化推荐的日志分析系统。该系统利用Hadoop分布式文件系统(HDFS)的可靠性和可扩展性的特点,使用基于HDFS的数据仓库Hive作为海量日志信息的存储平台,保证了用户日志信息存储的可靠性和可扩展性;利用Hadoop并行计算编程模型Map/Reduce的高效性特点,使用能够将SQL语句转换为Map/Reduce任务执行的Hive作为用户日志信息分析的平台,并使用借助Map/Reduce实现并行推荐计算的机器学习算法库Mahout封装的协同过滤算法来实现推荐引擎,实现了高性能的日志分析和推荐计算;最后通过分析Mahout源码和视频推荐的特点,优化了Mahout的推荐算法源码,以期提高推荐结果的准确有效性。为了对系统进行验证,本文设计了详细的测试方案。首先,从功能上验证了面向用户个性化推荐的日志分析系统的可用性和系统日志存储模块的可靠性、可扩展性;其次,从性能上验证了日志分析和推荐计算效率的提升;接着验证了优化后的推荐算法对推荐结果准确有效性的提升;最后通过搭建真实的实验环境,验证了系统的实际工作效果。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景1.2 相关工作1.2.1 畅邮视频搜索系统介绍1.2.2 视频推荐发展现状1.3 本文研究内容及贡献1.3.1 面临的挑战1.3.2 系统目标1.3.3 解决方案1.4 本文组织结构1.5 本章小结第二章 搜索引擎与推荐引擎的研究与分析2.1 搜索引擎与推荐引擎分析2.2 推荐引擎技术的研究与分析2.2.1 推荐系统架构分析2.2.2 推荐算法研究与分析2.2.3 几种推荐引擎的研究2.3 本章小结第三章 面向用户个性化推荐的日志分析系统概述3.1 系统框架模型概述3.2 系统功能模块简介3.2.1 日志收集模块3.2.2 日志存储分析模块3.2.3 推荐引擎模块3.2.4 结果反馈模块3.3 系统实现工具的研究与分析3.3.1 Apache Hadoop项目简介3.3.2 数据存储分析工具的研究与分析3.3.3 推荐工具的研究与分析3.4 本章小结第四章 面向用户个性化推荐的日志分析系统设计与实现4.1 系统架构设计4.2 可行性分析4.3 系统设计与实现4.3.1 日志收集模块4.3.2 日志存储分析模块4.3.3 推荐引擎模块4.3.4 结果反馈模块4.4 系统数据流分析4.5 本章小结第五章 Mahout推荐工具源码分析及优化5.1 Mahout源码框架概况5.2 推荐工具Taste源码分析5.2.1 DataModel模块5.2.2 Similarity模块5.2.3 UserNeighborhood模块5.2.4 Recommender模块5.2.5 Evaluator模块5.3 Mahout推荐工具源码优化5.3.1 依据时间遗忘曲线原理进行优化5.3.2 相似度计算优化5.4 本章小结第六章 实验及测试6.1 实验环境6.1.1 硬件配置6.1.2 软件配置6.2 面向用户个性化推荐的日志分析系统功能及性能测试6.2.1 Hadoop集群、Hive及Mahout的功能测试6.2.2 Hive数据定义与操作功能测试6.2.3 可靠性与可扩展性测试6.2.4 日志分析和推荐计算效率测试6.3 个性化推荐结果测试6.3.1 测试场景6.3.2 测试指标6.3.3 测试结果6.4 实际运行试验6.5 本章小结第七章 总结和展望7.1 本文工作总结7.2 今后研究展望参考文献缩略语致谢攻读学位期间发表的学术论文和科研情况
相关论文文献
标签:互联网论文; 推荐引擎论文; 日志分析论文;