排序学习中的领域自适应研究

排序学习中的领域自适应研究

论文摘要

随着监督式机器学习技术在各个领域的广泛应用,研究人员逐渐意识到,训练数据的缺乏是阻碍学习模型快速部署的关键因素之一。最近几年,如何解决训练数据缺乏的问题,已经成为机器学习,自然语言处理,信息检索、多媒体等领域的研究热点。排序学习是信息检索的关键问题之一。目前,基于监督的机器学习技术被认为是解决排序学习的最佳选择。如同传统监督式学习技术,目标领域缺乏训练数据也是排序学习正在面临的实际问题。针对排序学习,我们研究了如何利用其他相关领域的己有训练数据,学习出适用于目标领域的模型,即领域自适应。本文的主要贡献有以下几个方面:1.提出了基于文档权重的排序学习自适应框架。首先,利用领域分隔超平面估计源领域文档对目标领域的重要性;然后,把这些文档权重转换成文档对权重;最终,文档对权重可以集成到基于文档对的排序学习算法中。2.研究了著名的排序学习算法RankBoost的领域自适应问题。在基于文档权重的排序自适应框架下,提出了三种基于文档权重的RankBoost算法,并分别对它们进行了理论分析和试验比较。3.提出了直接在查询层次估计源领域查询对目标领域重要性的方法。在排序学习中,查询是带有相关性标签的文档集合,是排序学习的基本对象。我们分别从两个不同的角度进行查询权重估计:(1)将查询压缩成特征向量,然后采用传统的权重估计方法进行查询权重估计。(2)对每个源领域的查询,把它依次和目标领域查询进行比较;通过集成这些两两比较的结果,估计源领域查询对于目标领域的重要程度。4.提出了基于主动学习的排序学习自适应算法。为了获得目标领域特有的排序知识,采用主动学习技术,选择少量目标领域具有信息量的查询进行标注。这些查询可以弥补源领域所缺失的目标领域排序知识,同时,利用这些目标查询评估源查询对目标领域的重要性权重,从而充分利用源领域的训练数据。5.将领域自适应技术应用在语义实体识别中,提出了利用领域独立特征来增强领域自适应能力的方法。传统实体识别仅仅使用短文本特征,当训练文档和测试文档在风格上稍有差异时,性能便有明显下降。为解决该问题,我们设计了一个CRF与SVM的组合框架,通过该框架,短文本特征与领域独立特征可以有效的集成,最终获得的识别模型能够更好地适用于目标领域。针对不同的应用场景,本文研究了排序学习中的领域自适应问题。在目标领域没有标注数据的场景下,我们从样本权重的角度,研究了基于权重的排序学习领域自适应;在目标领域存在少量标注预算的场景下,我们研究了基于主动学习的排序自适应算法。另外,我们还研究了领域自适应在语义实体识别中的应用。从特征的角度,我们探讨了基于领域独立特征的语义实体识别领域自适应。我们在标准数据集上评价了算法的有效性。在实际应用中,比如多媒体新闻推荐,热点事件检测,情感分析,通用搜索,垂直搜索等等,通过本文提出的领域自适应技术,可以充分利用已有其他相关领域的标注数据,降低目标领域的标注成本,同时获得满意的目标领域模型。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 研究背景
  • 1.1.1 机器学习技术的广泛应用
  • 1.1.2 为什么需要领域自适应
  • 1.1.3 领域自适应的研究进展
  • 1.2 本文的主要贡献
  • 1.3 本文的章节安排
  • 第二章 背景知识
  • 2.1 领域自适应
  • 2.1.1 领域自适应的基本概念
  • 2.1.2 基于实例权重的领域自适应方法
  • 2.1.3 基于特征变换的领域自适应方法
  • 2.1.4 基于模型结构调整的领域自适应方法
  • 2.2 排序学习
  • 2.2.1 排序学习的基本概念
  • 2.2.2 排序学习算法
  • 2.2.3 排序学习的领域自适应研究现状
  • 第三章 基于文档权重的排序学习自适应框架
  • 3.1 问题定义
  • 3.2 权重估计
  • 3.2.1 文档权重
  • 3.2.2 权重转换
  • 3.3 损失函数
  • 3.3.1 文档对排序损失函数
  • 3.3.2 基于权重的排序损失函数
  • 3.4 整体框架
  • 3.5 试验结果与分析
  • 3.5.1 试验数据与设置
  • 3.5.2 结果与分析
  • 3.6 本章总结
  • 第四章 RankBoost自适应排序模型
  • 4.1 Boosting算法
  • 4.2 源领域权重与目标领域权重
  • 4.2.1 源领域权重
  • 4.2.2 目标领域权重
  • 4.2.3 权重间的矛盾
  • 4.3 三种基于权重的RankBoost算法
  • 4.3.1 expWRB
  • 4.3.2 linWRB
  • 4.3.3 addWRB
  • 4.4 试验结果与分析
  • 4.4.1 试验数据与设置
  • 4.4.2 结果与分析
  • 4.5 本章总结
  • 第五章 基于查询权重的排序学习领域自适应
  • 5.1 文档权重与查询权重
  • 5.2 文档权重估计的相关工作
  • 5.3 查询权重估计的两种方法
  • 5.3.1 查询特征向量
  • 5.3.2 源查询与目标查询的相互比较
  • 5.4 基于查询权重的排序自适应
  • 5.5 试验结果与分析
  • 5.5.1 试验数据与设置
  • 5.5.2 结果与分析
  • 5.6 本章总结
  • 第六章 基于主动学习的自适应排序模型
  • 6.1 主动学习概述
  • 6.1.1 基本概念
  • 6.1.2 样本信息量评价标准
  • 6.2 主动排序学习
  • 6.2.1 排序学习与传统监督式学习的差异
  • 6.2.2 主动排序学习进展
  • 6.3 主动学习与领域自适应
  • 6.3.1 基于主动学习的领域自适应动机
  • 6.4 基于查询委员会的主动排序学习
  • 6.4.1 样本选择粒度
  • 6.4.2 排序模型委员会
  • 6.4.3 排序争议度量
  • 6.5 主动排序自适应模型
  • 6.5.1 总体框架
  • 6.5.2 查询权重
  • 6.5.3 主动领域自适应
  • 6.6 试验结果与分析
  • 6.6.1 试验数据与设置
  • 6.6.2 结果与讨论
  • 6.7 本章总结
  • 第七章 领域自适应技术在语义实体识别中的应用
  • 7.1 命名实体
  • 7.1.1 基本概念
  • 7.1.2 命名实体的识别方法
  • 7.1.3 命名实体识别的领域自适应研究现状
  • 7.2 语义实体
  • 7.2.1 什么是语义实体
  • 7.2.2 语义实体与命名实体的区别
  • 7.3 领域独立特征
  • 7.3.1 内部紧密性
  • 7.3.2 上下文可变性
  • 7.3.3 相邻停用词
  • 7.3.4 词位置概率
  • 7.4 CRF和SVM的集成
  • 7.4.1 语义实体边界的边缘概率
  • 7.4.2 两阶段训练
  • 7.5 试验结果与分析
  • 7.5.1 试验数据与设置
  • 7.5.2 结果与分析
  • 7.6 本章小结
  • 第八章 总结与展望
  • 8.1 总结
  • 8.2 展望
  • 攻读博士学位期间发表论文
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  

    排序学习中的领域自适应研究
    下载Doc文档

    猜你喜欢