基于依存关系的中文语义角色标注研究

基于依存关系的中文语义角色标注研究

论文摘要

作为自然语言理解的一项研究重点,语义分析旨在将人类的自然语言转化为计算机能够理解的形式化语言。由于深层语义分析的复杂性,人们目前更关心浅层语义分析,一种简化了的语义分析形式,分析句子中谓词(动词或名词)的语义角色成分,包括施事者、受事者、时间、地点等。作为浅层语义分析的一种实现方式,语义角色标注(Semantic Role Labeling,简称SRL)已被广泛应用于更高层次的自然语言处理相关任务,如信息抽取、问答系统和机器翻译等。根据谓词词性的不同,通常可以将语义角色标注分为动词性谓词语义角色标注和名词性谓词语义角色标注。目前主流的语义角色标注研究都是基于短语结构句法分析进行的,并取得了一定的成果。但这种研究方案中,短语句法分析性能对语义角色标注性能起着主导作用,是现阶段语义角色标注的瓶颈。因此有研究者开始探索使用依存句法分析进行语义角色标注。另从研究现状看,针对中文语义角色标注的研究要比英文的少得多,其中一个主要原因是缺乏合适的标注语料。现阶段由于中文PropBank和中文NomBank的发布,使得对中文语义角色标注的研究成为可能。因此,本文从依存关系出发,研究中文语义角色标注,主要研究内容有以下三个方面:首先,探索了中文谓词标注,包括动词性谓词和名词性谓词。谓词标注是语义角色标注的前提,是语义角色标注中的重要一步,其性能直接决定了语义角色标注的性能。针对动词性谓词,本文实现了一个基于最大熵分类器的识别系统,并在CoNLL2008和CoNLL2009评测数据上进行实验;对名词性谓词的识别,除了采用基于最大熵分类器外,还采用了基于卷积树核的方法,并在中文NomBank的转换语料上进行实验。其次,研究了基于特征向量的中文SRL。在构建一个通用的基于特征向量的中文语义角色标注平台的基础上,重点探讨了特征选择对系统性能的影响,并分别针对动词性谓词和名词性谓词制定不同的特征集合,分析各个特征对系统的贡献度。实验结果表明,系统在中文名词性谓词上的P/R/F1值分别为:71.37/86.20/78.09。最后,首次尝试采用基于卷积树核的方法对名词性谓词进行语义角色标注。其中重点讨论了依存树的构造和剪枝,探索在结构信息本身就很少的依存树上,使得输入的树中尽量少的包含噪音信息。实验表明,基于树核函数的SRL结果与基于特征向量的结果已经非常接近。本实验作为基于卷积树核的探索性实验,为今后研究提供了有价值的参考。本文的主要贡献在于对基于依存关系的中文语义角色标注进行了全面研究,包括使用不同方法识别动词和名词性谓词;使用基于特征向量的方法构建语义角色标注平台,分析各个特征的作用;并首次使用基于核函数的方法进行中文语义角色标注。这些方法的研究及取得的成果对今后的研究具有重要的参考价值。

论文目录

  • 中文摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 研究意义
  • 1.3 研究现状
  • 1.3.1 动词性谓词语义角色标注相关研究
  • 1.3.2 名词性谓词语义角色标注相关研究
  • 1.3.3 基于依存关系的国际评测
  • 1.4 本文研究内容
  • 1.5 组织结构
  • 第二章 相关介绍
  • 2.1 语义角色标注概述
  • 2.1.1 语义角色标注定义
  • 2.1.2 语义角色标注语料
  • 2.1.3 语义角色标注评测
  • 2.2 依存句法分析简介
  • 2.3 分类器介绍
  • 2.3.1 最大熵分类器
  • 2.3.2 支持向量机
  • 2.4 本章小结
  • 第三章 谓词标注
  • 3.1 引言
  • 3.2 相关工作
  • 3.3 动词性谓词标注
  • 3.3.1 标注步骤
  • 3.3.2 语料来源
  • 3.3.3 特征选择
  • 3.3.4 实验结果与分析
  • 3.4 名词性谓词识别
  • 3.4.1 语料来源
  • 3.4.2 预处理
  • 3.4.3 基于特征向量的谓词识别
  • 3.4.4 基于树核函数的谓词识别
  • 3.4.5 实验结果与分析
  • 3.5 本章小结
  • 第四章 基于特征向量的SRL
  • 4.1 引言
  • 4.2 系统描述
  • 4.2.1 标注单元
  • 4.2.2 标注步骤
  • 4.3 特征向量构造
  • 4.3.1 动词性谓词SRL
  • 4.3.2 名词性谓词SRL
  • 4.3.3 剪枝算法
  • 4.4 实验结果与分析
  • 4.4.1 动词性谓词SRL 结果
  • 4.4.2 名词性谓词SRL 结果
  • 4.5 本章小结
  • 第五章 基于树核函数的SRL
  • 5.1 引言
  • 5.2 相关工作
  • 5.3 依存树构建
  • 5.3.1 完全依存树
  • 5.3.2 公共结点树(CT)
  • 5.3.3 最短路径包含树(SPT)
  • 5.3.4 最小树(MT)
  • 5.4 实验结果分析
  • 5.5 同基于特征向量的SRL 相比
  • 5.6 本章小结
  • 第六章 总结与展望
  • 6.1 本文工作总结
  • 6.2 未来工作展望
  • 参考文献
  • 攻读学位期间公开发表或录用的论文
  • 致谢
  • 相关论文文献

    • [1].论元角色的藏语语义角色标注研究[J]. 高原科学研究 2018(03)
    • [2].基于规则的“把”字句语义角色标注[J]. 中文信息学报 2017(01)
    • [3].蒙古文语义角色研究概述[J]. 内蒙古师范大学学报(哲学社会科学版) 2014(06)
    • [4].中文语义角色标注研究概述[J]. 文教资料 2012(27)
    • [5].格语法视域下的汉语语序与语义角色关系探究[J]. 北京化工大学学报(社会科学版) 2018(04)
    • [6].《语义角色研究进展》述介[J]. 当代语言学 2019(04)
    • [7].一种规则与统计相结合的应用题句子语义角色识别方法[J]. 计算机应用研究 2018(08)
    • [8].语义角色理论述评[J]. 河南理工大学学报(社会科学版) 2018(04)
    • [9].基于语义角色标注的专利主题提取研究[J]. 图书情报工作 2014(19)
    • [10].基于分层输出神经网络的汉语语义角色标注[J]. 中文信息学报 2014(06)
    • [11].语义角色标注及其在科技情报分析中的应用研究[J]. 情报理论与实践 2015(01)
    • [12].基于依存特征的汉语框架语义角色自动标注[J]. 中文信息学报 2013(02)
    • [13].基于文献计量的国内语义角色标注研究现状分析[J]. 情报杂志 2012(04)
    • [14].基于特征组合的中文语义角色标注[J]. 软件学报 2011(02)
    • [15].基于语义角色标注的新闻领域复述句识别方法[J]. 中文信息学报 2010(05)
    • [16].中文问答系统中语义角色标注的研究与实现[J]. 科学技术与工程 2008(10)
    • [17].基于外部记忆单元和语义角色知识的文本复述判别模型[J]. 中文信息学报 2017(06)
    • [18].基于语义角色标注的文本水印算法[J]. 计算机应用研究 2017(04)
    • [19].小句补语句小句主语语义角色探析[J]. 山西青年 2018(17)
    • [20].小句补语句小句主语语义角色探析[J]. 文存阅刊 2018(17)
    • [21].基于多策略的藏语语义角色标注研究[J]. 中文信息学报 2014(05)
    • [22].基于语义角色的中文事件识别[J]. 计算机工程与科学 2013(04)
    • [23].基于图模型的语义角色标注重排序[J]. 中文信息学报 2013(05)
    • [24].通用语义角色自动标注研究[J]. 长春工业大学学报(自然科学版) 2012(02)
    • [25].基于语义角色标注的问答系统的研究与实现[J]. 计算机与数字工程 2012(07)
    • [26].语义角色标注研究综述[J]. 山东理工大学学报(自然科学版) 2011(06)
    • [27].汉语框架语义角色的自动标注[J]. 软件学报 2010(04)
    • [28].把字句主语的语义角色[J]. 贵阳学院学报(社会科学版) 2010(02)
    • [29].语义角色标注中特征优化组合研究[J]. 计算机应用与软件 2009(05)
    • [30].基于深度神经网络的语义角色标注[J]. 中文信息学报 2018(02)

    标签:;  ;  ;  ;  

    基于依存关系的中文语义角色标注研究
    下载Doc文档

    猜你喜欢