论文摘要
随着监督式机器学习技术在各个领域的广泛应用,研究人员逐渐意识到,训练数据的缺乏是阻碍学习模型快速部署的关键因素之一。最近几年,如何解决训练数据缺乏的问题,已经成为机器学习,自然语言处理,信息检索、多媒体等领域的研究热点。排序学习是信息检索的关键问题之一。目前,基于监督的机器学习技术被认为是解决排序学习的最佳选择。如同传统监督式学习技术,目标领域缺乏训练数据也是排序学习正在面临的实际问题。针对排序学习,我们研究了如何利用其他相关领域的己有训练数据,学习出适用于目标领域的模型,即领域自适应。本文的主要贡献有以下几个方面:1.提出了基于文档权重的排序学习自适应框架。首先,利用领域分隔超平面估计源领域文档对目标领域的重要性;然后,把这些文档权重转换成文档对权重;最终,文档对权重可以集成到基于文档对的排序学习算法中。2.研究了著名的排序学习算法RankBoost的领域自适应问题。在基于文档权重的排序自适应框架下,提出了三种基于文档权重的RankBoost算法,并分别对它们进行了理论分析和试验比较。3.提出了直接在查询层次估计源领域查询对目标领域重要性的方法。在排序学习中,查询是带有相关性标签的文档集合,是排序学习的基本对象。我们分别从两个不同的角度进行查询权重估计:(1)将查询压缩成特征向量,然后采用传统的权重估计方法进行查询权重估计。(2)对每个源领域的查询,把它依次和目标领域查询进行比较;通过集成这些两两比较的结果,估计源领域查询对于目标领域的重要程度。4.提出了基于主动学习的排序学习自适应算法。为了获得目标领域特有的排序知识,采用主动学习技术,选择少量目标领域具有信息量的查询进行标注。这些查询可以弥补源领域所缺失的目标领域排序知识,同时,利用这些目标查询评估源查询对目标领域的重要性权重,从而充分利用源领域的训练数据。5.将领域自适应技术应用在语义实体识别中,提出了利用领域独立特征来增强领域自适应能力的方法。传统实体识别仅仅使用短文本特征,当训练文档和测试文档在风格上稍有差异时,性能便有明显下降。为解决该问题,我们设计了一个CRF与SVM的组合框架,通过该框架,短文本特征与领域独立特征可以有效的集成,最终获得的识别模型能够更好地适用于目标领域。针对不同的应用场景,本文研究了排序学习中的领域自适应问题。在目标领域没有标注数据的场景下,我们从样本权重的角度,研究了基于权重的排序学习领域自适应;在目标领域存在少量标注预算的场景下,我们研究了基于主动学习的排序自适应算法。另外,我们还研究了领域自适应在语义实体识别中的应用。从特征的角度,我们探讨了基于领域独立特征的语义实体识别领域自适应。我们在标准数据集上评价了算法的有效性。在实际应用中,比如多媒体新闻推荐,热点事件检测,情感分析,通用搜索,垂直搜索等等,通过本文提出的领域自适应技术,可以充分利用已有其他相关领域的标注数据,降低目标领域的标注成本,同时获得满意的目标领域模型。
论文目录
相关论文文献
标签:领域自适应论文; 排序学习论文; 文档权重论文; 查询权重论文; 主动学习论文; 领域独立特征论文; 语义实体论文;