论文摘要
互联网的持续指数式增长,导致了网络信息爆炸,凸显了信息过载问题——面对海量的数据,用户反而很难找到最相关的信息。目前,搜索引擎和推荐系统是进行信息过滤最主要的方法。搜索引擎提供基于关键词的无差别服务,不同用户以相同关键词进行查询只能得到相同的搜索结果。推荐系统能够主动为用户提供个性化信息过滤服务,在电子商务、社会化网络中得到了广泛应用。其中,协同过滤推荐算法从历史行为信息中挖掘用户偏好,不需要对内容进行分析,是当前最流行的推荐方法。然而,协同过滤推荐算法的研究中还有以下不足:(1)随机梯度下降法是矩阵分解模型最常用的训练方法,但误差下降速度随迭代次数的增加而逐渐变慢,这可能导致训练时间过长;(2)大数据背景下,不同电子商务公司之间的合作和不同类型数据的融合成为必然趋势,然而这方面的研究却比较少;(3)现有的协同过滤推荐算法多数是线性模型,有的甚至不能融合社会关系信息,这一定程度上限制了推荐算法从评分矩阵中提取潜在信息的能力。针对以上问题,本文通过定义局部结构信息来优化随机梯度下降算法,减少训练时间;为了融合不同的数据集合,设计一种基于标签迁移学习的矩阵分解算法;最后,利用Logistic函数和社会关系信息构建非线性社会化矩阵分解推荐模型。主要工作和研究成果如下:1.提出利用评分矩阵的差分矩阵来表征局部信息,并作为一个新的目标函数,这样就把矩阵分解变成一个多目标优化问题。在多目标优化求解过程中采用分级求解的思想,先根据经典目标函数求出近似最优解,然后根据新目标函数在近似最优解附近寻找最优解。在两组真实数据集合上的实验结果表明,该算法能够用更少的迭代次数得到更准确的预测结果。2.提出一种基于标签迁移学习的矩阵分解算法,把用户在辅助数据集合中所选电影的标签分布作为特征向量,并用于初始化目标数据集合中项目的特征向量,对用户/项目特征向量进行平滑处理后在目标数据集合中进行矩阵分解。实验结果表明,该算法能够显著降低预测误差,同时减少约一半训练时间。3.提出四种基于Logistic函数的矩阵分解模型来表征潜在因子之间的非线性联系,并使用随机梯度下降法和马尔科夫链蒙特卡罗法训练模型。实验结果证明了基于Logistic函数非线性模型的有效性。最后,以一种崭新的方式将Logistic函数和社会关系融合到贝叶斯概率矩阵分解模型中,起到了提高预测准确性和收敛速度的效果。