面向问答系统的答案获取方法研究与实现

面向问答系统的答案获取方法研究与实现

论文摘要

互联网的发展使人们能够在互联网这个平台上方便地保存数据、交流信息以及共享知识。人类日常所需的大部分知识,均可利用互联网得到。在现阶段,人们大多通过搜索引擎从互联网中寻找所需知识。但是,搜索引擎只允许用户通过若干关键词描述需求并且只能返回与这些关键词相关的信息,用户需花费大量时间从中寻找所需知识。为了改善这种状况,问答系统(Question Answering System)逐渐成为研究热点。该系统接收用户所提出的各种问题,直接获取高质量的答案返回用户。相比搜索引擎,问答系统允许用户将所需信息以问题的形式描述出来,这些问题比关键词包含更多的语义信息,能够更加准确地描述用户的需求。问答系统可分为自动问答系统和交互式问答系统。其中,自动问答系统主要利用基于语义匹配的答案获取方法,首先对问题进行语义分析,而后从数据源抽取与问题所问事物的语义特征相一致的信息,将其作为答案返回用户;交互式问答系统主要利用基于问题推荐的答案获取方法,通过分析用户模型,将问题推荐至合适的用户处。本文围绕这两种不同的答案获取方法,对如何加强问题的语义分析能力、提高相关文档的抓取质量、增加答案的抽取速度和准确率以及优化问题的推荐策略等内容进行了深入研究,以提高问答系统的问题回答率和答案正确率。本文的主要研究内容和创新之处如下:首先,提出了一种新型的问题模板粒度评估策略SIIPU(SemanticIdentifiability Inverse Pattern Universality),并以SIIPU为基础给出了一种有效的问题模板学习算法SIIPU*S。SIIPU能够分析出不同粒度的语法约束信息对问题语义进行分析时的不同效果,进而根据实际需求选择合适的语法约束构建问题模板,以保证学得的问题模板在能够准确分析问题语义的前提下,处理尽量多的问题。其次,提出了一种基于查询重写的段落抽取方法以快速获取若干与问题相关的段落。该方法利用启发式的查询生成策略,能够将问题转换为几组高质量的查询,这些查询能够较为准确地刻画用户需求。此外,通过基于模板的问题特征抽取策略,根据每个关键词在问题中的不同角色定制对应的权重,以便在抽取段落时,能够提高包含“重要”词语的段落被抽取到的概率。再次,提出了一种基于动态模板的答案抽取方法。该方法利用启发式的信息抽取规则学习算法HRL(Heuristic Rule Learning),从用户标注过的文档训练集中抽取出高质量的信息抽取规则。此外,利用问题的分析结果,能够选择适当的抽取规则动态生成若干与该问题相对应的答案模板,以便从与问题相关的段落中抽取准确答案。最后,提出一种基于负载平衡的问题推荐策略。该机制通过分析用户的信誉度以及对各个领域的兴趣度和权威性,为其推荐相关问题。同时,所有待解决的问题会依照其重要程度被依次推荐,以保证重要问题能够被优先推荐。并且,问题被尽量平摊至不同的用户,以调动每位用户的参与度。此外,紧急的问题会被推荐至积极性较高的领域专家处,以确保能够被及时回答。在上述工作基础上,本文实现了两个问答原型系统。实验结果表明所提出的方法有效提高了问答系统的效率。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 论文研究背景和意义
  • 1.1.1 互联网
  • 1.1.2 搜索引擎
  • 1.1.3 信息抽取技术
  • 1.1.4 问答技术
  • 1.2 问答系统综述
  • 1.2.1 自动问答系统
  • 1.2.2 交互式问答系统
  • 1.3 国内外研究现状
  • 1.4 本文研究内容及创新
  • 1.5 本文组织结构
  • 第2章 基于语义模板的问题分析方法
  • 2.1 相关研究
  • 2.2 语义问题模板的定义
  • 2.3 模板粒度与语义承载能力的关系
  • 2.4 模板粒度评估策略
  • 2.5 问题模板学习算法
  • 2.5.1 问题解析与语义标注
  • 2.5.2 候选问题模板集的生成
  • 2.5.3 模板粒度评估
  • 2.5.4 问题模板粒度的调整
  • 2.6 基于模板匹配的问题分析方法
  • 2.7 实验结果及分析
  • 2.8 本章小结
  • 第3章 基于查询重写的段落抽取方法
  • 3.1 相关工作
  • 3.2 段落抽取流程图
  • 3.3 预处理
  • 3.3.1 查询生成组件
  • 3.3.2 查询重写组件
  • 3.4 文档管理组件
  • 3.4.1 页面抓取
  • 3.4.2 页面分析与处理
  • 3.5 段落抽取
  • 3.6 实验结果
  • 3.6.1 性能评价标准
  • 3.6.2 实验过程描述
  • 3.6.3 实验结果及讨论
  • 3.7 本章小结
  • 第4章 基于动态模板的答案抽取方法
  • 4.1 相关工作
  • 4.2 多槽信息抽取规则描述
  • 4.3 动态短语抽取算法
  • 4.3.1 规则粒度分析
  • 4.3.2 频繁短语挖掘算法
  • 4.3.3 基于条件熵的评估策略
  • 4.4 启发式规则学习算法
  • 4.4.1 规则库初始化
  • 4.4.2 频繁短语挖掘
  • 4.4.3 基于条件熵的敏感度评估
  • 4.4.4 模板的融合及抽象
  • 4.5 答案模板的生成
  • 4.6 实验及结果
  • 4.7 本章小结
  • 第5章 基于负载平衡的问题推荐方法
  • 5.1 相关工作
  • 5.2 问题推荐原理及流程图
  • 5.3 组件算法设计
  • 5.3.1 用户建模组件
  • 5.3.2 问题特征抽取组件
  • 5.3.3 问题推荐组件
  • 5.4 算法实现及实验
  • 5.5 本章小节
  • 第6章 系统实现
  • 6.1 自动问答系统HINTS
  • 6.1.1 HINTS系统结构图
  • 6.1.2 系统实现
  • 6.2 即时交互式问答系统
  • 6.2.1 即时交互式问答系统结构图
  • 6.2.2 系统实现
  • 6.3 本章小结
  • 第7章 总结
  • 7.1 本文工作总结
  • 7.2 本文主要的贡献和创新之处
  • 7.3 下一步的研究工作
  • 参考文献
  • 致谢
  • 在读期间发表的学术论文与取得的研究成果
  • 已发表论文
  • 待发表论文
  • 攻读学位期间参与的科研项目情况
  • 相关论文文献

    • [1].六月,赠书季[J]. 文苑(经典美文) 2014(06)
    • [2].基于数据区域发现的信息抽取规则生成方法[J]. 计算机工程 2009(22)
    • [3].基于上下文无关文法的数据抽取规则[J]. 河南城建学院学报 2010(05)
    • [4].一种自适应的Web信息抽取规则自动生成方法[J]. 广西师范大学学报(自然科学版) 2010(01)
    • [5].基于规则的动物卫生事件舆情信息抽取研究[J]. 计算机应用与软件 2018(09)
    • [6].Web信息抽取策略及其实现方法研究[J]. 科技情报开发与经济 2008(23)
    • [7].针对学术定义的抽取规则构建方法研究[J]. 情报理论与实践 2011(12)
    • [8].基于本体模块的微博信息抽取[J]. 图书馆学研究 2013(13)
    • [9].基于SVM的Web信息抽取研究[J]. 黑龙江科技信息 2013(18)
    • [10].一种基于XQuery的优化Web信息抽取方法[J]. 计算机应用 2008(01)
    • [11].国际合作项目推荐[J]. 电脑与电信 2014(04)
    • [12].基于XML技术的粮食检索系统设计[J]. 信息与电脑(理论版) 2010(10)
    • [13].基于XML和DOM技术的Web信息抽取模型[J]. 大连交通大学学报 2013(03)
    • [14].基于DOM树的可适应性Web信息抽取[J]. 计算机科学 2009(07)
    • [15].中石油评审自动化专家抽取系统实例[J]. 中国招标 2018(24)
    • [16].影评情感分析知识图谱构建研究[J]. 计算机仿真 2020(08)
    • [17].一种通用的多数据库间数据抽取方法及应用[J]. 北京交通大学学报 2008(04)
    • [18].基于知识元的学术论文内容创新性智能化评价研究[J]. 图书情报工作 2020(01)
    • [19].基于WEB信息抽取的主动服务技术研究[J]. 计算机系统应用 2008(01)
    • [20].基于汉英双语语料的语义精准抽取系统设计[J]. 现代电子技术 2020(10)
    • [21].信息抽取与中医药文献资源利用[J]. 电脑知识与技术 2017(22)
    • [22].Web信息抽取系统的设计[J]. 微型电脑应用 2013(03)
    • [23].Web信息抽取和展现系统的设计与实现[J]. 电力信息化 2012(02)
    • [24].基于XML技术的WEB信息收集方法研究[J]. 电子技术与软件工程 2015(03)
    • [25].Web页面细粒度数据抽取方法研究[J]. 计算机工程与设计 2014(02)
    • [26].融合核心句与依存关系的评价搭配抽取[J]. 计算机技术与发展 2014(01)
    • [27].航班信息抽取规则的自动生成技术[J]. 计算机工程 2011(06)
    • [28].用规则抽取句子中事件信息[J]. 小型微型计算机系统 2011(11)
    • [29].神经网络规则抽取评估方法[J]. 计算机应用 2008(S2)
    • [30].Web信息抽取系统分类方法研究[J]. 内蒙古农业大学学报(自然科学版) 2012(04)

    标签:;  ;  ;  ;  ;  ;  

    面向问答系统的答案获取方法研究与实现
    下载Doc文档

    猜你喜欢