基于核方法的语义角色标注研究

基于核方法的语义角色标注研究

论文摘要

全自动的语义分析一直是自然语言理解的主要任务之一。通过深层语义分析,可以将自然语言转化为形式语言,从而使计算机能够与人类无障碍的沟通。为达此目的,人们已经进行了多年的努力,然而由于这一问题过于复杂,目前取得的效果并不理想。浅层语义分析是对深层语义分析的一种简化,它只标注与句子中谓词有关的成分的语义角色,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。语义角色标注是浅层语义分析的一种实现方式,具有定义清晰,便于评价的优点,近年来受到越来越多学者的关注。目前主流的语义角色标注研究集中于使用各种统计机器学习技术,利用多种语言学特征,进行语义角色的识别和分类。近年的研究表明,影响语义角色标注系统性能的首要因素并非机器学习模型,而是使用的特征。因此,若想提高系统的性能,细致的特征工程工作是必不可少的。然而,随着越来越多特征的加入,特征之间的相互影响越来越严重,使得系统性能增长的趋势逐渐趋缓,并达到一个上限。为此必须寻找新的方法以解决这一问题。基于核的方法通过对已有特征进行组合或者分解,将低维特征空间映射到高维特征空间,从而将在低维空间不容易区分的问题在高维空间加以解决,是一种可行的解决方案。本文正是利用核方法这一优点,将其应用于语义角色标注这一问题中。除了使用已有的核方法外,还提出了多种新的核方法。首先,我们构造了一个语义角色标注基线系统,该系统使用特征向量表示待分类对象,并在特征向量之上,使用基于多项式核的方法,自动的对特征进行组合。实验结果表明,当使用二次多项式核对特征进行两两组合时,该系统是目前已知的最好的基于单句法分析器的语义角色标注系统之一。接着,我们针对基线系统中,特征向量很难恰当的表示结构化的特征这一问题,使用了卷积树核自动将较大的结构特征进行分解,并能够在多项式时间内进行核函数的计算。然而,通常的卷积树核混淆了语义角色标注中不同的特征,因此,我们提出了混合卷积树核融合多种树核,来对不同种类的特征分别进行建模,最终获得优于标准卷积树核的性能。然后将混合卷积树核与二次多项式核进行融合,得到的复合核取得了比单独使用两种核都好的结果。但是,标准卷积树核要求两棵子树之间必须是精确匹配的,而不考虑结构相似,语义角色相同的情况。因此,我们提出了新的句法驱动卷积树核,在核函数的设计过程中,融入了语言学知识,容许结构和节点的近似匹配,最终取得了较标准卷积树更好的性能。最后同样与多项式核进行融合,并取得了更好的性能。最后,我们使用基于核的方法,实现了一个目前最好的中文语义角色标注系统。主要贡献在于提出了更适用于中文的新特征,同时首次将核方法应用于中文语义角色标注中,得到了与英文相同的性能趋势,从而也证明了我们提出的核方法的有效性。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景及意义
  • 1.1.1 课题背景
  • 1.1.2 课题意义
  • 1.2 研究现状及分析
  • 1.2.1 语义角色标注定义
  • 1.2.2 语义角色标注语料资源
  • 1.2.3 语义角色标注方法
  • 1.2.4 语义角色标注评测
  • 1.3 本文主要研究内容
  • 第2章 基于二次多项式核的语义角色标注
  • 2.1 引言
  • 2.2 基于二次多项式核的语义角色标注系统
  • 2.2.1 基于句法成分的标注单元
  • 2.2.2 四个标注步骤
  • 2.2.3 基于多项式核方法的分类器
  • 2.2.4 语义角色标注中的特征构造
  • 2.2.5 局部标注模型
  • 2.3 对比系统
  • 2.3.1 基于规则的语义角色标注
  • 2.3.2 基于最大熵分类器的语义角色标注
  • 2.4 实验及讨论
  • 2.4.1 数据资源
  • 2.4.2 多项式核分类器的实现
  • 2.4.3 实验结果及讨论
  • 2.5 本章小结
  • 第3章 混合卷积树核与二次多项式核相结合
  • 3.1 引言
  • 3.2 基于多项式核方法的不足
  • 3.3 卷积树核
  • 3.3.1 卷积核
  • 3.3.2 卷积树核
  • 3.4 用于语义角色标注的混合卷积树核
  • 3.5 混合卷积树核与二次多项式核的结合
  • 3.6 相关工作
  • 3.7 实验及讨论
  • 3.7.1 分类器的实现
  • 3.7.2 实验结果及讨论
  • 3.8 本章小结
  • 第4章 句法驱动混合卷积树核
  • 4.1 引言
  • 4.2 句法驱动卷积树核的设计
  • 4.2.1 句法驱动的近似子结构匹配
  • 4.2.2 句法驱动的相似节点匹配
  • 4.2.3 句法驱动的卷积树核
  • 4.3 句法驱动的卷积树核的有效计算
  • 4.3.1 与其它相关工作的比较
  • 4.4 实验及讨论
  • 4.4.1 实验设置
  • 4.4.2 实验结果
  • 4.5 本章小结
  • 第5章 基于核方法的中文语义角色标注
  • 5.1 引言
  • 5.2 中文语义角色标注语料库资源
  • 5.3 标注步骤
  • 5.4 中文语义角色标注特征集
  • 5.5 基于核方法的中文语义角色标注
  • 5.6 实验及讨论
  • 5.6.1 实验设置
  • 5.6.2 实验结果
  • 5.7 本章小结
  • 结论
  • 参考文献
  • 攻读博士学位期间所发表的论文
  • 致谢
  • 个人简历
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于核方法的语义角色标注研究
    下载Doc文档

    猜你喜欢