英文篇章结构分析关键问题研究

论文摘要

近三年来，篇章结构分析（Discourse Structure Analysis，简称DSA）受到了计算语言学界的广泛关注（据统计，每届ACL、COLING和EMNLP会议上均发表8篇以上篇章结构分析方面的论文，而这方向的投稿文章则达30篇以上）。篇章结构分析研究成为了继传统信息抽取/信息检索、机器翻译和句法/语义分析领域之后的又一个研究热点。DSA旨在研究自然语言文本的内在结构，通过对文本单元（可以是词、短语、从句、句子或段落）的上下文进行全局分析来理解文本单元间的语义关系。因此，篇章结构分析能够抽取出文本内部丰富的结构化信息，对自然语言理解和自然语言生成均起着至关重要的作用。目前主流的DSA研究比较注重篇章中的词汇层面信息，例如：篇章中单词、单词形态学变化和单词对等；然而，篇章中句子的态度和句子的衔接方式等方面的信息却少有研究，导致目前的篇章结构分析性能不高。鉴于此，本文围绕学界广泛关注问题，在以下三个方面展开研究。具体而言：1．隐式篇章关系识别（Implicit Discourse Relation Recognition，简称IDRR）研究。本文在研究了基于单词对、语言模型和树核函数的隐式篇章关系识别模型的基础上，提出了一个基于态度韵律理论的隐式篇章关系识别模型。该模型通过计算句子的态度/情感来识别隐式篇章关系，并采用复合核方法集成了一种依存词对树核结构。上述方法在国际基准语料Penn Discourse Treebank （PDTB）2.0上进行试验，实验表明采用基于态度韵律理论的隐式篇章关系识别模型后，IDRR的准确率与目前基于单词对、语言模型和树核函数的方法相比得到显著提升。2．篇章论元识别（Discourse Argument Identification，简称DAI）研究。本文从句内（连接词与论元处于同一句）和句外（连接词与论元不处于同一句）两种情形分别处理DAI。针对句内情况，在研究基于组块、基于分类和基于句法树裁减方法的篇章论元识别模型的基础上，提出了一个基于浅层语义分析框架的篇章论元识别模型。该模型将篇章连接词看作谓词，并将谓词的论元映射成句法树中的一些组块，将传统方法的组块层次研究提升为具有丰富句法信息的句法树层次，同时将组块而不是单词作为篇章论元的识别单元。针对句外情况，本文提出了一种轻量级的规则解决方案，将连接词到当前句尾的单词序列和连接词的前一句分别作为连接词对应的两个论元。上述方法在国际基准语料PDTB上进行试验，实验表明采用基于浅层语义分析框架的篇章论元元识别模型后，DAI的F1值与目前基于组块的方法相比得到显著提升。3．篇章连贯性建模（Discourse Coherence Modeling，简称DCM）研究。本文在研究了基于实体和基于篇章关系的篇章连贯性模型的基础上，提出了一个基于主位-述位结构衔接性理论的篇章连贯性模型。该模型通过计算句子中主位和述位的相似度来描述篇章连贯性，并采用规则方法集成了基于主位结构和指代消解的两种篇章连贯性过滤机制。上述模型在五种不同文体的国际基准语料上进行试验，实验表明采用基于衔接性理论的篇章连贯性模型后，DCM的准确率与目前基于实体和篇章关系的有监督学习方法相比得到显著提升。在此基础上，本文设计了基于树核的英文篇章结构分析平台，并将上述三个关键问题的研究算法一并加以集成。为了验证上述方法对自然语言处理相关应用的实际作用，本文引入了学生作文的可读性评估作为测试实例，通过线性拟合等方法，将篇章关系值和篇章连贯性值作为可读性评估值。上述研究在开放语料上建立模型，并在实际语料上进行试验，结果表明了本文构建的英文篇章结构分析平台对于学生作文可读性评估十分有效，与目前基于实体和基于篇章关系的有监督学习方法相比，在算法精度和减少对大规模语料库的依赖性等方面具有优势。本文的创新点主要表现在：（1）针对隐式篇章关系识别研究，提出了基于态度韵律理论的隐式篇章关系识别模型。该模型通过计算句子的态度/情感来识别隐式篇章关系，并采用复合核方法集成了一种依存词对树核结构。与同类方法相比，在国际基准PDTB语料上将隐式篇章关系识别性能提升了大约6%；（2）针对篇章论元识别研究，提出了基于浅层语义分析框架的篇章论元识别模型，将传统方法的组块层次提升为具有丰富句法信息的句法树层次，同时将组块而不是单词作为篇章论元的识别单元。与同类方法相比，在国际基准PDTB语料上将标准句法树和自动句法树上的篇章论元识别性能分别提升了大约2%和6%；（3）针对篇章连贯性建模研究，提出了基于主位-述位结构衔接性理论的篇章连贯性模型，通过计算句子中主位和述位的相似度来描述篇章连贯性，并采用规则方法集成了基于主位结构和指代消解的两种篇章连贯性过滤机制。与同类方法相比，在国际基准Accident、Earthquake、Wall street journal、Britannical elementary语料上将篇章连贯性检测性能分别提升了3%-6%。本文的主要贡献：对篇章结构分析中的关键技术进行了深入的研究，提出了相关问题的一些解决方法，并设计了相应的算法和实验。实验表明，本文提出的这些方法有助于提高篇章结构分析的性能，同时减少对大规模语料库的依赖性，为今后的篇章结构分析研究奠定了一个重要基础，为同类研究提供了一个参考。

论文目录

中文摘要

Abstract

第1章绪论

1.1 研究背景和意义

1.1.1 研究背景

1.1.2 研究意义

1.2 篇章结构分析综述

1.2.1 国外研究现状

1.2.2 国内研究现状

1.2.3 篇章结构分析的应用

1.2.4 评测方法

1.2.5 存在的问题和不足

1.2.6 研究热点和趋势

1.3 本文的研究内容

1.4 本文的组织结构

第2章隐式篇章关系识别研究

2.1 引言

2.2 基于态度韵律理论的隐式篇章关系识别模型

2.2.1 态度韵律理论简介

2.2.2 基于态度韵律理论的隐式篇章关系识别

2.2.3 分类器的选择与构造

2.3 基于语义角色的隐式篇章关系识别模型

2.3.1 语义角色简介

2.3.2 基于语义角色的隐式篇章关系识别

2.4 基于依存词对树核的隐式篇章关系识别模型

2.4.1 依存词对树核结构

2.4.2 SVM 的构造

2.5 实验结果及分析

2.5.1 基于态度韵律理论的隐式篇章关系识别性能及比较

2.5.2 基于语义角色的隐式篇章关系识别性能及比较

2.5.3 基于依存词对树核的隐式篇章关系识别性能及比较

2.5.4 复合核下的隐式篇章关系识别性能及比较

2.6 本章小结

第3章篇章论元识别研究

3.1 引言

3.2 篇章论元识别框架

3.3 基于句法树裁减的句内篇章论元识别模型

3.4 基于浅层语义分析框架的句内篇章论元识别模型

3.4.1 篇章论元剪枝和识别

3.5 基于规则的句外篇章论元识别

3.6 实验结果及分析

3.6.1 实验设置

3.6.2 句法树裁减模型下的篇章论元识别性能及比较

3.6.3 浅层语义分析框架下的篇章论元识别性能及比较

3.6.4 不同方法的篇章论元识别性能对比

3.7 本章小结

第4章篇章连贯性建模研究

4.1 引言

4.2 基于主位-述位结构理论的篇章连贯性基准模型

4.2.1 主位-述位结构理论简介

4.2.2 基于主位-述位结构理论的篇章连贯性建模

4.3 基于主位结构的篇章连贯性过滤机制

4.4 基于指代消解的篇章连贯性过滤机制

4.4.1 指代消解简介

4.4.2 指代消解在篇章连贯性建模中的应用

4.5 实验结果及分析

4.5.1 实验设置

4.5.2 句子排序任务下的基准/组合模型性能及比较

4.5.3 文本摘要连贯性排序任务下的基准/组合模型性能及比较

4.5.4 文本可读性评估任务下的基准/组合模型性能及比较

4.6 本章小结

第5章基于树核的英文篇章结构分析平台及应用

5.1 引言

5.2 相关工作

5.2.1 英文篇章结构分析平台

5.2.2 学生写作自动评分

5.3 基于树核的英文篇章结构分析平台

5.4 基于篇章连贯性的学生作文可读性评估模型

5.5 基于篇章关系的学生作文可读性评估模型

5.6 篇章连贯性和篇章关系合成下的学生作文可读性评估模型

5.7 实验结果及分析

5.7.1 实验设置

5.7.2 基于树核的英文篇章结构分析平台性能及比较

5.7.3 学生作文可读性评估性能及比较

5.8 本章小结

第6章总结与展望

6.1 研究工作总结

6.2 下一步的工作设想

参考文献

作者在攻读博士学位期间完成的论文及科研工作

致谢

英文篇章结构分析关键问题研究

论文摘要

论文目录

相关论文文献

猜你喜欢