面向金融领域的中文问句语义块分析方法

面向金融领域的中文问句语义块分析方法

论文摘要

随着金融业在中国的快速发展,社会对金融领域的信息需求日益扩大,而传统的搜索引擎又不能很好的满足用户的需要,本文的金融问答系统的研究便是基于这样的背景。金融问答系统允许用户以自然语言的方式提问,并向用户返回正确的答案,所以与传统的搜索引擎相比,问答系统能更好的满足用户的查询需求,更准确的找到用户需要的答案。本文的研究是基于一种面向真实环境的金融问答系统,并研究其中最关键的一步:问句分析。问句分析是问答系统的关键,针对真实环境问答系统中问句的复杂性,本文提出了使用语义块标注分析问句的方法,该方法考虑了问句功能的特殊性和问句信息的结构性,依据语义功能将问句的信息分为5类:问句主题块、主题焦点块、疑问信息块、限制信息块和冗余信息块。其中疑问信息块用于描述问题的分类,共分为12类。为实现语义块的自动划分,实际应用中采用了语义块标注的形式,在特征选择中,除了词特征和词性特征以外,本文还使用了一种问句句模特征,问句句模是本文通过分析大量问句的表达方式总结出来的,覆盖了疑问信息块的12个类型。通过手工标注,得到了语料库的初始18000个问句,分别通过最大熵模型和最大熵马尔可夫模型为基础实现了真实问句的语义块的自动标注系统,完成了问句深层次的分析。最后通过问句复述的识别实验,发现标注语义块的问句比起没有标注语义块的问句在进行的问句复述实验中的准确率和召回率都有了明显的提高,验证了该语义块标注分析方法的有效性。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 课题研究的目的及意义
  • 1.3 国内外的研究现状
  • 1.3.1 问答系统研究现状
  • 1.3.2 问句分析方法研究现状
  • 1.4 本文研究的主要内容
  • 1.4.1 本文内容
  • 1.4.2 本文的组织
  • 第2章 问句分析方法介绍
  • 2.1 引言
  • 2.2 问句的预处理
  • 2.2.1 词法分析
  • 2.2.2 噪音的去除
  • 2.3 问句的分类
  • 2.4 命名实体识别
  • 2.5 问句句法分析
  • 2.6 问句的组块分析
  • 2.7 本章小结
  • 第3章 中文问句的语义块分析方法
  • 3.1 引言
  • 3.2 传统方法在真实问句环境中的不足
  • 3.3 中文问句的语义块分析方法
  • 3.3.1 语义块的概念和划分方法
  • 3.3.2 语义块的标注
  • 3.3.3 问句语义块分析问句的实例介绍
  • 3.4 问句语义块分析的优势
  • 3.5 本章小结
  • 第4章 中文问句语义块的自动标注系统
  • 4.1 引言
  • 4.2 中文问句语义块标注的最大熵模型
  • 4.2.1 最大熵方法简介
  • 4.2.2 最大熵模型中特征的选取
  • 4.2.3 最大熵模型的优缺点
  • 4.3 中文问句语义块标注的最大熵马尔可夫模型
  • 4.4 本章小结
  • 第5章 语义块标注实验和分析
  • 5.1 引言
  • 5.2 实验环境
  • 5.3 语义块标注实验前期准备
  • 5.3.1 语料库的来源
  • 5.3.2 专业词典的构建
  • 5.3.3 专业同义词典的构建
  • 5.3.4 分词标注
  • 5.3.5 噪音的去除
  • 5.3.6 语料库的标注
  • 5.4 最大熵模型语义块自动标注实验
  • 5.5 基于最大熵马尔可夫模型语义块自动标注实验
  • 5.6 语义块标注在问句复述中的应用
  • 5.6.1 问句复述简介
  • 5.6.2 语义块标注在问句复述中的应用实验
  • 5.7 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    面向金融领域的中文问句语义块分析方法
    下载Doc文档

    猜你喜欢