问答系统中的文本信息抽取研究与应用

问答系统中的文本信息抽取研究与应用

论文摘要

近年来,互联网的迅速发展,使得人们能够在这个平台上方便地保存数据、交流信息以及共享知识。但是,互联网中海量的数据给用户快速准确地获得这些所需的知识带来了困难。针对这样的需求,基于Web的信息检索和信息抽取逐渐成为了重要的研究课题。当搜索引擎的不足开始凸现,如何将丰富的资源合理地利用,使机器理解其中信息,成为网络时代机器智能的一大热门研究课题。在这样的背景下,建立在信息检索与信息抽取技术之上的问答技术领域蓬勃发展起来。问答系统以自然语言的问题取代关键字作为输入,允许用户准确表达自己的需求;将准确的答案短句返回给用户,节约了用户搜索、定位答案的时间。问答系统按照获取答案的方式可以分为自动问答系统和交互式问答系统两种;根据系统所处理的问题的范围可以分为开放领域问答系统和特定领域问答系统两种。前者不限输入的问题范围,试图为任意主题内的任意问题寻找答案。后者只接受针对某一个特定领域的问题,往往有此领域内的领域知识作为指导。本文针对信息抽取在问答系统中的应用,围绕这两种不同的问答系统展开了研究。对开放领域内的问答,研究了如何加强对问题的语义分析能力、如何更有效地利用历史数据库以提高机器智能;对特定领域内的问答,研究了如何更好利用经验解决新的问题等,以提高问答系统的答案正确率。本文的主要研究内容和创新之处如下:第一,对问题语义的准确分析是把握用户需求的关键。本文对文本中语义约束信息的识别展开了研究,期望对有信号词指示的语义约束部分,给出正确的检测,并对由同一信号词指示的多种语义约束,给出正确的区分。为此提出了一种运用依存关系树比对来检测文本中多语义约束的方法。对每一类语义约束,搜集信号词以及相应的例句组成案例库,并定义部分依存关系树(PDT)核函数来计算两个对象之间的相似度。在实际计算过程中,运用Apriori算法,来降低计算该核函数的复杂度。第二,不管是自动问答系统还是交互式问答系统,都在日积月累的用户使用中积累了大量的问答数据。为了有效地重用这些历史数据,本文开展了从历史问答对中抽取知识的研究,期望将短文本答案的问答对蕴含的知识自动转化为结构化的知识表达,不断积累;并使得系统可以凭借积累的知识库进行查询检索,并返回结果。这样一是可以节约建造知识库的人力,二是可以对新问题给出一个参考答案,节约交互式系统中用户得到答案的时间。为此本文描述了从问答对到知识库转化的工作流程,将语义模板匹配和上述语义约束的识别的工作相结合,来获取对问题句中知识的提取,并运用以语义网络为基础的结构来表达互相联系互相约束的知识簇。实现了一个用户交互式的原型系统,演示了上述知识库积累和使用的过程。第三,在特定领域内的自动问答中,领域知识起到非常关键的作用。在一些领域中,经验是解答新问题的最好的依据。因此,本文以植物生长环境的推荐任务为应用场景,对用基于案例推理的方法来重用该领域内的经验进行了研究。提出了一种学习获取修正规则的方法。运用资源空间模型(RSM)和语义链接网络(SLN)来表达和构建案例库,将案例之间相互联系起来。以案例比对的方法分析案例库,以得到修正规则;案例之间的联系和基本领域知识,给相似度计算提供了指导;运用距离测量值和置信度值来提高修正规则的生成和运用的精度;设计了一个进化模块,依据解决新问题的经验来更新修正规则集,提供了系统的学习能力。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 论文研究背景和意义
  • 1.1.1 互联网
  • 1.1.2 信息检索
  • 1.1.3 搜索引擎和目录
  • 1.1.4 信息抽取技术
  • 1.2 问答系统综述
  • 1.2.1 自动问答系统
  • 1.2.2 交互式问答系统
  • 1.3 国内外研究现状
  • 1.4 本文研究内容及创新
  • 1.5 本文组织结构
  • 第2章 基于依存关系树的文本多语义约束检测
  • 2.1 问题背景描述及相关研究
  • 2.2 语义约束的检测
  • 2.2.1 依存关系树
  • 2.2.2 基于案例的工作流程
  • 2.2.3 相似度计算
  • 2.2.4 Apriori规则优化
  • 2.3 实验结果及分析
  • 2.3.1 实验方案及结果
  • 2.3.2 实验结果分析
  • 2.4 本章小结
  • 第3章 重用历史问答对的知识管理
  • 3.1 研究背景与相关工作
  • 3.1.1 规则和知识在问答领域中的应用
  • 3.1.2 文本文档中知识的利用
  • 3.1.3 常识知识库
  • 3.1.4 信息抽取之结构化表达
  • 3.1.5 小结
  • 3.2 从问答对中抽取知识
  • 3.2.1 一个例子
  • 3.2.2 工作流程
  • 3.3 QASYS知识管理模块
  • 3.3.1 Minipar工具分析问句语法结构
  • 3.3.2 问题句语义模板匹配
  • 3.3.3 QASYS中语义关系的表达
  • 3.3.4 QASYS中语义关系类型的定义
  • 3.3.5 基于语义网络结构的知识存储
  • 3.3.6 查询检索与问题回答
  • 3.4 原型系统的实现及结果展示
  • 3.4.1 语义模板匹配
  • 3.4.2 基于关系数据库的知识存储实现
  • 3.4.3 问题检索返回结果演示
  • 3.5 本章小结
  • 第4章 基于案例推理的修正知识抽取和自动问答
  • 4.1 研究背景与相关工作
  • 4.1.1 CBR概述
  • 4.1.2 基于案例的推理中修正知识的获取
  • 4.1.3 TCBR中的案例表达
  • 4.2 资源空间模型和语义链接网络
  • 4.3 从案例库中学习修正规则
  • 4.3.1 案例库的表达和构建
  • 4.3.2 发掘领域知识为案例库所用
  • 4.3.3 考虑检索与修正规则学习之间的关系
  • 4.3.4 修正规则的提炼和应用
  • 4.3.5 发掘保留过程中的学习能力
  • 4.4 系统实现
  • 4.4.1 案例库的构造
  • 4.4.2 修正规则的生成和提炼
  • 4.4.3 检索和重用
  • 4.4.4 修正
  • 4.4.5 保留
  • 4.5 实验和结果
  • 4.6 本章小节
  • 第5章 总结
  • 5.1 本文工作总结
  • 5.2 本文主要的贡献和创新之处
  • 5.3 下一步的研究工作
  • 参考文献
  • 致谢
  • 在读期间发表的学术论文与取得的研究成果
  • 已发表论文
  • 攻读学位期间参与的科研项目情况
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    问答系统中的文本信息抽取研究与应用
    下载Doc文档

    猜你喜欢