论文摘要
在过去一些年中,由于资源易于分类以及可以使用标签来检索内容,社会标签系统越来越受欢迎。社会标注是Web2.0引入的一种新颖和有用的机制。日益增多的用户通过社会标注行为提供资源的信息,于是就出现基于标签的搜索方法,通过用户所标注的标签就揭示了用户对于内容的偏好。因此,标注信息可用于做推荐。社会标注系统的用户可以定义个人分类,其他用户也可以浏览相关资源,尽管如此,由于缺乏对标注过程的有效管理,以及缺乏标签之间的关系的定义,用户所做的资源分类不见得是很合理的,这就产生了资源共享的局限性。目前利用标签进行推荐的方法主要有三种:基于三部图的推荐方法,基于概率模型的推荐方法,基于协同过滤的推荐方法。基于三部图存在的不足是将用户、对象、标签看成三类不同的节点,连边只在不同类节点之间,同类节点之间不存在连边,这种人为的划分方式割裂了三类节点相互之间的“共现”关系,从而不可避免地会造成信息丢失。基于概率模型算法存在的不足是以机器学习为基础,这种方法一般采用Gibbs抽样,或者期望最大化方法来迭代获得最优的推荐结果,因此对计算机的计算能力要求较高。特别是当数据量规模非常大的时候,使用基于概率模型的算法将会消耗较长的计算时间。目前,如何快速有效地设计基于概率模型的推荐算法还是一个难题。基于协同过滤的推荐算法存在的不足是以用户过去的行为来计算相似度的,因此需要大量的历史数据才能较好地衡量相似性。同时,在海量数据的情况下计算相似度也是非常消耗时间的。此外,很多在线用户的行为并不十分显著(比如购买过程中的浏览和比较行为)如何衡量基于这一类用户行为的相似度还是一个研究难题。因此针对上述问题,研究主要围绕标签推荐,资源查询展开,主要包括以下内容:(1)提出了一种基于随机游走的标签推荐和服务查询方法针对现有的服务注册系统中服务的标签标注的随意性,以及造成标签和服务之间的相关性弱的缺点,提出一种随机游走标签排序的标签推荐方法,从而利用标签和服务之间的相关性进行服务查询。本文对于没有标签的API服务,通过API服务的描述文档找到其相似的文档,然后将它的标签推荐出来。前提是基于与API服务的描述文档相似的文档共用相似的标签,我们还利用文档相似性构建API服务的拓扑图,假设在拓扑图中如果一个标签标注了某个特定的API服务那么它也适合于它的邻居API服务。利用随机游走方法,计算出给定标签在对应API服务的标签列表中的位置和标签列表的大小,得到API服务的相关分数,再根据标签相似性得到查找的服务列表。在真实数据集中验证了本方法的可行性,实验充分验证了本文提出的方法的有效性,为标签推荐提供了新的视角。(2)基于标签推荐的服务聚类对服务进行聚类可以得到服务的类别,更好地找到服务。针对部分标签数较少的服务,文中提出一种标签推荐的方法来改进Mashup服务聚类的性能,在本方法中我们利用Mashup描述文本的相似性和其对应推荐后的标签的相似性的组合作为Mashup服务的相似性,实验结果表明本文提出的标签推荐策略有效扩充了标签数较少的Mashup服务,带来更多相关标签信息,使其聚类效果更好。(3)基于主题的标签排序在社会标注系统中人们的标注行为是比较随意的,为了让标签能够起到更好的对服务数据的标识作用对标签进行排序是很重要的,文章提出一种基于主题的标签排序方法,提取出标签空间中不同的话题,并得到在不同主题下所对应的标签序列。实验比较了LDA,MFTR,LDA+MFTR这三种方法进行标签推荐的效果,结果表明LDA+MFTR的效果最好。(4)基于主动学习的标签预测标注分为手动标注和自动标注两种方法,当当前自动标注的方法还没有达到让人非常满意的地步,但是手动标注又是很耗时耗力的过程,需要很多用户的实际经验。文章提出一种基于主动学习的标签预测方法对网络资源数据进行标签预测。本方法可以看做是主动学习和标注方法的结合,标签预测和样本选择是本方法的两个主要部分。样本选择的目的是从未标注样本中选择信息量最大的样本进行手动标注,然后对未标注数据集中的其余服务数据进行标签预测。文中将模糊性,引用率,以及多样性三个指标结合起来作为样本选择的综合指标,并比较了三种不同的标签预测方法的结果,实验结果表明这种样本选持的方法得到的待标注数据包含的信息量很大,使得标签预测效果较好。