论文摘要
信息技术技术的飞速发展与数字资源数量的爆炸式增长,使传统的以关键字为检索为手段的信息获取技术日益不能满足人们的需求。在这种情况下,个性化推荐系统应运而生。推荐系统是实现个性化服务的一项重要内容,其最大的优点在于收集用户特征资料并根据用户偏好(profile),为用户主动进行个性化的推荐,并且跟踪用户兴趣变化,实时更新推荐。本文设计并实现了科技文献推荐子系统,该子系统是北京大学与惠普合作项目PKUSpace的一部分,并得到了自然科学基金“资源服务中间件”的部分支持。PKUSpace致力于建立一个科研服务与交流平台,提供技文献的存储、共享、检索、导航等基本功能,并融入web2.0因素,提供协同标签,阅读笔记以及个人文献视图等功能,在此基础上,提供标签挖掘以及文献的个性化推荐服务。目前应用最广泛的推荐技术包括基于内容的推荐技术和协作过滤推荐技术,这两种技术都有各自的优点与不足,很多系统通过结合这两种技术来达到好的推荐效果。结合考虑PKUSpace提供的功能以及科技文献的特殊性,本文提出一个以协同标签为基础,结合科技文献的内容信息以及科技文献的引文信息,并融合了基于内容过滤与协作过滤技术的组合推荐框架。本文的新思路在于:将协同标签应用于推荐系统中。协同标签是web2.0系统中常用的组织资源的方式,本文采用的算法能够适用于所有提供了协同标签功能的系统。通过标签来表示用户的兴趣,这利用了标签的内容信息,而目前多数利用标签的推荐系统只是简单的利用用户是否对资源作标签这一信息来判断用户是否对资源感兴趣。通过用户作标签的文献的内容信息以及文献的引文的内容信息来扩展用户兴趣。以用户对资源的兴趣度来表示用户模型与资源模型的匹配以及用户对资源的评分,兴趣度的计算以基于向量点积的方法替代传统基于向量夹角余弦的方法。以多种方式组合协作过滤推荐技术与基于内容的推荐技术,并能够调整两种技术所占的权重,以适应系统规模的不断扩大。