问题回答和对话系统中置信度的研究

问题回答和对话系统中置信度的研究

论文摘要

问题回答是文本检索和自然语言处理领域中非常热门的一个研究方向。问题回答系统输入的是基于自然语言的问题,返回的是精确答案以及支持该答案的文档。答案排序是问题回答中的关键技术之一,它通过计算答案的置信度来对候选答案进行排序。给定一个问题和一个答案,答案的置信度指的是该答案正确回答了问题的自信程度。目前的答案排序方法还不够成熟,因此基于置信度的答案排序技术的研究具有重要的意义。基于自然语言处理的对话系统也是国际上的研究热点之一,对话系统输入的是人的语音命令,返回的是正确的回答或执行相应的指令。对话系统需要基于句子中的某些重要成分的置信度来进行有效的对话,而目前的基于词一级、基于概念一级或者基于句子一级的置信度的研究都不能满足这种需要。这样基于短语一级的置信度的研究,对于对话系统性能的提高具有重要的现实意义。本文的主要贡献有三个方面:第一,本文提出了一种新的基于置信度的答案排序的方法。这是一种基于依赖关系三元组匹配的计算问题与支持答案句相似度的方法。该方法挖掘了问题中的疑问性和非疑问性部分的信息,采用启发式规则来扩展问题的依赖关系三元组,从而来匹配变形的答案句。这种匹配得分被作为新的特征,应用于计算答案的置信度之中。本文采用TREC会议提供的语料进行实验,实验结果表明,引入新特征的答案排序方法的性能比引入前有显著的提高。第二,根据对话系统的实际需要,本文提出了基于句法分析子树一级的置信度的研究:给定一棵句法分析子树所包含词的语音识别的信息和句法分析器剖析的结果,要求给出相应的置信度,即句法分析器对句子中某一成分剖析的自信程度,以及该子树中的词的语音识别的自信程度。随后,本文提出了一种新的计算置信度的算法,该算法采用了语音特征、句法特征和语义特征,以及条件最大熵模型。在餐馆查询系统语料和SwitchBoard语料上的实验结果表明,该算法具有较低的错误率。第三,基于上述句法分析子树一级置信度的研究,本文进一步提出了一系列新的长距离、结构化的句法特征。这些特征来自于句法分析树的一层或者多层之间的依赖关系。传统的词一级的特征只能反映句子的表层信息,而长距离、结构化的句法特征更能反映句子的深层信息。这些特征被应用于基于句法分析子树的置信度评分算法中,并且显著提高了系统的性能。

论文目录

  • 摘要
  • Abstract
  • 第一章 问题回答和对话系统的介绍
  • 1.1 问题回答的背景和研究现状
  • 1.1.1 TREC QA简介
  • 1.1.2 问题回答系统的评测
  • 1.1.3 问题回答的发展及研究现状
  • 1.1.4 问题回答系统中答案排序的研究现状
  • 1.2 对话系统的简介
  • 1.2.1 对话系统的研究现状
  • 1.2.2 对话系统中的置信度研究现状
  • 1.3 问题回答系统和对话系统的关系
  • 1.4 本文的组织结构
  • 第二章 在问题回答中基于依赖关系三元组匹配的答案排序
  • 2.1 介绍
  • 2.2 FDUQA问题回答系统的介绍
  • 2.2.1 介绍
  • 2.2.2 FDUQA系统框架
  • 2.2.3 FDUQA系统性能评测
  • 2.3 问题/支持答案句之间依赖关系三元组匹配
  • 2.3.1 依赖关系三元组匹配的原理
  • 2.3.1.1 依赖关系三元组匹配的原理
  • 2.3.1.2 问题分类
  • 2.3.2 依赖关系三元组的扩展
  • 2.3.2.1 与疑问相关的依赖关系三元组的扩展
  • 2.3.2.2 与疑问非相关的依赖关系三元组的扩展
  • 2.3.3 依赖关系三元组群的匹配
  • 2.4 答案排序方法
  • 2.4.1 特征介绍
  • 2.4.2 基于优先级的答案排序方法
  • 2.4.3 基于机器学习的答案排序方法
  • 2.4.4 基于Web知识库的答案重排序方法
  • 2.5 实验结果和性能分析
  • 2.5.1 实验语料和评测指标
  • 2.5.2 实验结果
  • 2.5.3 性能分析
  • 2.6 本章小结
  • 第三章 对话系统中基于句法分析子树的置信度评分算法
  • 3.1 介绍
  • 3.2 CHAT对话系统简介
  • 3.3 基于句法分析子树的置信度评分算法
  • 3.3.1 句法分析子树定义
  • 3.3.2 置信度评分算法
  • 3.3.3 最大熵的基本原理
  • 3.4 特征介绍
  • 3.4.1 Score特征
  • 3.4.1.1 Word-level score特征
  • 3.4.1.2 POS tag score特征
  • 3.4.1.3 Dependency score特征
  • 3.4.1.4 History score特征
  • 3.4.2 Lexical-syntactic特征
  • 3.4.3 Semantic特征
  • 3.5 基于餐馆查询系统语料的实验结果和性能分析
  • 3.5.1 语料标注
  • 3.5.2 实验结果和性能分析
  • 3.5.3 小结
  • 3.6 基于SWBD语料的实验结果和性能分析
  • 3.6.1 语料标注
  • 3.6.2 实验结果和性能分析
  • 3.6.3 小结
  • 3.7 本章小结
  • 第四章 长距离、结构化的句法特征在置信度评分中的应用
  • 4.1 介绍
  • 4.2 长距离、结构化的句法特征介绍
  • 4.2.1 来自一层的长距离、结构化的句法特征
  • 4.2.2 来自多层的长距离、结构化的句法特征
  • 4.2.3 其它特征
  • 4.3 长距离、结构化的句法特征在置信度评分中的应用
  • 4.3.1 基于餐馆查询系统语料的实验结果和性能分析
  • 4.3.2 基于SWBD语料的实验结果和性能分析
  • 4.4 本章小结
  • 第五章 总结与展望
  • 5.1 总结
  • 5.2 展望
  • 参考文献
  • 攻读博士学位期间的主要工作
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    问题回答和对话系统中置信度的研究
    下载Doc文档

    猜你喜欢