论文摘要
随着金融业在中国的快速发展,社会对金融领域的信息需求日益扩大,而传统的搜索引擎又不能很好的满足用户的需要,本文的金融问答系统的研究便是基于这样的背景。金融问答系统允许用户以自然语言的方式提问,并向用户返回正确的答案,所以与传统的搜索引擎相比,问答系统能更好的满足用户的查询需求,更准确的找到用户需要的答案。本文的研究是基于一种面向真实环境的金融问答系统,并研究其中最关键的一步:问句分析。问句分析是问答系统的关键,针对真实环境问答系统中问句的复杂性,本文提出了使用语义块标注分析问句的方法,该方法考虑了问句功能的特殊性和问句信息的结构性,依据语义功能将问句的信息分为5类:问句主题块、主题焦点块、疑问信息块、限制信息块和冗余信息块。其中疑问信息块用于描述问题的分类,共分为12类。为实现语义块的自动划分,实际应用中采用了语义块标注的形式,在特征选择中,除了词特征和词性特征以外,本文还使用了一种问句句模特征,问句句模是本文通过分析大量问句的表达方式总结出来的,覆盖了疑问信息块的12个类型。通过手工标注,得到了语料库的初始18000个问句,分别通过最大熵模型和最大熵马尔可夫模型为基础实现了真实问句的语义块的自动标注系统,完成了问句深层次的分析。最后通过问句复述的识别实验,发现标注语义块的问句比起没有标注语义块的问句在进行的问句复述实验中的准确率和召回率都有了明显的提高,验证了该语义块标注分析方法的有效性。
论文目录
摘要Abstract第1章 绪论1.1 课题背景1.2 课题研究的目的及意义1.3 国内外的研究现状1.3.1 问答系统研究现状1.3.2 问句分析方法研究现状1.4 本文研究的主要内容1.4.1 本文内容1.4.2 本文的组织第2章 问句分析方法介绍2.1 引言2.2 问句的预处理2.2.1 词法分析2.2.2 噪音的去除2.3 问句的分类2.4 命名实体识别2.5 问句句法分析2.6 问句的组块分析2.7 本章小结第3章 中文问句的语义块分析方法3.1 引言3.2 传统方法在真实问句环境中的不足3.3 中文问句的语义块分析方法3.3.1 语义块的概念和划分方法3.3.2 语义块的标注3.3.3 问句语义块分析问句的实例介绍3.4 问句语义块分析的优势3.5 本章小结第4章 中文问句语义块的自动标注系统4.1 引言4.2 中文问句语义块标注的最大熵模型4.2.1 最大熵方法简介4.2.2 最大熵模型中特征的选取4.2.3 最大熵模型的优缺点4.3 中文问句语义块标注的最大熵马尔可夫模型4.4 本章小结第5章 语义块标注实验和分析5.1 引言5.2 实验环境5.3 语义块标注实验前期准备5.3.1 语料库的来源5.3.2 专业词典的构建5.3.3 专业同义词典的构建5.3.4 分词标注5.3.5 噪音的去除5.3.6 语料库的标注5.4 最大熵模型语义块自动标注实验5.5 基于最大熵马尔可夫模型语义块自动标注实验5.6 语义块标注在问句复述中的应用5.6.1 问句复述简介5.6.2 语义块标注在问句复述中的应用实验5.7 本章小结结论参考文献致谢
相关论文文献
标签:问句分析论文; 最大熵模型论文; 最大熵马尔可夫模型论文; 语义块论文;