信息距离理论及其在问答系统中的应用研究

信息距离理论及其在问答系统中的应用研究

论文摘要

计算词与词、句与句等文本片段之间的相似度或相关性是自然语言问答系统的核心任务之一。不仅如此,相似度或相关性计算在信息提取、信息检索等很多领域也具有重要的意义。从根本上说,相似度或相似性计算都可以抽象成度量两个实体在某种意义下的距离。本文就集中于建立和完善能够计算对象间距离的统一理论——信息距离理论,并对各种情况下使用信息距离度量文本片段之间的相似度或相关性做出了深入探索,最后在此基础上设计和实现了自然语言问答原型系统QUANTA。本文的主要工作如下:·以传统的max型信息距离理论为基础,提出了基于Kolmogorov复杂性的min型信息距离度量。新的度量解决了传统信息距离在解决实际问题时遇到的部分匹配问题,三角不等式问题和密度问题。在正规化信息距离的普适性方面,我们证明了一系列定理,为传统理论中的遗留问题做出了确定性结论。最后,我们发展了基于条件模式的条件信息距离理论。·在信息距离理论的指导下,对词与词之间、句与句之间的相似性进行了深入研究。基于模式的条件信息距离相比传统信息距离可以提供更强的语义信息,据此我们设计了一套条件模式计算词之间的语义相似度。基于最大交迭原则和min型信息距离的原理,我们提出了估计条件Kolmogorov复杂性的算法,以计算句子与句子之间的相似性。·答案确认是问答系统中的关键环节之一。本文提出了基于条件信息距离的答案确认算法,利用条件信息距离的稳定性以及刻画对象之间相关度时的灵活性,将计算问题与答案相关性的问题转化成为计算问题的中心对象与答案之间关于特定条件模式的条件信息距离的问题。·采用自然语言处理、文本分类和信息检索领域的一系列技术,以信息距离理论为基础,设计并实现了事实型问题回答原型系统QUANTA。系统通过问题预处理、检索条目生成、文档/段落检索、备选答案生成和答案确认等五个模块回答自然语言提出的事实型问题。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 信息距离理论的提出背景和研究现状
  • 1.2 信息距离理论的基础知识
  • 1.2.1 Kolmogorov复杂性
  • 1.2.2 通用概率分布
  • 1.2.3 信息距离理论
  • 1.2.4 信息距离的应用
  • 1.2.5 本义贡献
  • 1.3 问答系统
  • 1.3.1 问答系统的基本原理
  • 1.3.2 距离度量在问答系统中的应用
  • 1.3.3 本文贡献
  • 1.4 论文结构
  • 第2章 信息距离理论的扩展研究
  • 2.1 min型信息距离
  • 2.2 信息距离的弱普适性
  • 2.3 基于条件模式的条件信息距离
  • 2.4 结论
  • 第3章 文本间的语义信息距离
  • 3.1 词与词之间的语义距离
  • 3.1.1 词之间的语义信息距离
  • 3.1.2 基于大规模统计的词之间语义信息距离
  • 3.1.3 词之间相似度计算的实验与分析
  • 3.2 段落检索与句子之间相似度的计算
  • 3.2.1 句子相似度
  • 3.2.2 基于min型信息距离的句子之间相似度计算
  • 3.2.3 段落检索实验与分析
  • 3.3 结论
  • 第4章 从问题到答案的条件信息距离
  • 4.1 答案确认
  • 4.2 条件信息距离:从问题到答案
  • 4.2.1 抽取问题的核心对象
  • 4.2.2 生成问题相关的条件模式
  • 4.2.3 通用概率分布的估计和计算条件信息距离
  • 4.3 答案确认实验与分析
  • 4.3.1 实验设置
  • 4.3.2 实验结果与分析
  • 4.4 结论
  • 第5章 QUANTA问题回答原型系统
  • 5.1 系统结构和流程
  • 5.2 问题预处理模块
  • 5.2.1 问题正规化和自然语言处理
  • 5.2.2 问题分类
  • 5.3 检索条目构造模块
  • 5.4 文本检索模块
  • 5.5 备选答案生成模块
  • 5.6 备选答案排名模块
  • 5.7 问答系统的性能评价
  • 5.8 结论
  • 第6章 结论与展望
  • 6.1 本文工作总结
  • 6.2 后续工作展望
  • 参考文献
  • 致谢
  • 附录A 用于计算单词之间条件信息距离的扩展条件模式
  • 附录B TREC109数据集上实验的详细结果
  • 个人简历、在学期间发表的学术论文与研究成果
  • 相关论文文献

    • [1].基于监督的距离度量学习方法研究[J]. 信息技术 2011(12)
    • [2].有监督的距离度量学习算法研究进展[J]. 自动化学报 2014(12)
    • [3].基于距离度量学习的智能车辆路径规划[J]. 计算机仿真 2020(07)
    • [4].一种面向同名线要素的距离度量方法[J]. 武汉大学学报(信息科学版) 2017(03)
    • [5].距离度量学习算法的精确性研究[J]. 现代电子技术 2019(21)
    • [6].基于深度学习和距离度量的行人再识别研究[J]. 阜阳师范学院学报(自然科学版) 2019(02)
    • [7].基于多图像组信息的人脸识别研究[J]. 大连民族大学学报 2017(01)
    • [8].距离度量学习的摄像网络中行人重识别[J]. 中国计量大学学报 2016(04)
    • [9].双层反导协同模式分析与距离度量优选法[J]. 装甲兵工程学院学报 2016(04)
    • [10].一种改进的距离度量的聚类算法[J]. 电子设计工程 2012(22)
    • [11].采用概率密度比值估计的距离度量学习[J]. 信号处理 2013(05)
    • [12].脑机器人障碍回避(英文)[J]. 心智与计算 2010(01)
    • [13].基于余弦距离度量学习的伪K近邻文本分类算法[J]. 计算机工程与设计 2013(06)
    • [14].基于距离度量学习的集成谱聚类[J]. 计算机工程 2015(01)
    • [15].基于缩放因子的人脸直方图特征距离度量方法[J]. 西华大学学报(自然科学版) 2013(05)
    • [16].基于距离度量的多样性图排序方法[J]. 软件学报 2018(03)
    • [17].一种用于三维模型检索的半监督距离度量学习方法[J]. 仪器仪表学报 2010(06)
    • [18].面向视频监控的距离度量行人再识别[J]. 传感器与微系统 2019(09)
    • [19].反导案例匹配中的距离度量算子[J]. 现代防御技术 2017(06)
    • [20].基于多样字典理论与多尺度距离度量的彩色图像检索[J]. 延边大学学报(自然科学版) 2017(02)
    • [21].融合距离度量学习和SVM的图像匹配算法[J]. 小型微型计算机系统 2015(06)
    • [22].高维数据的增量式聚类算法的距离度量选择研究[J]. 计算机工程与科学 2019(02)
    • [23].距离度量下的一类非线性系统输出反馈控制[J]. 西南师范大学学报(自然科学版) 2012(01)
    • [24].基于距离度量学习的半监督多视角谱聚类算法[J]. 四川大学学报(工程科学版) 2016(01)
    • [25].基于SVM的BoVW距离度量学习[J]. 信息工程大学学报 2013(05)
    • [26].基于面向对象数据模型的地理实体距离度量关系分析方法[J]. 测绘与空间地理信息 2014(05)
    • [27].结合候选区域距离度量学习与CNN分类回归联合的左心室检测[J]. 计算机辅助设计与图形学学报 2019(03)
    • [28].基于特征分组与特征值最优化的距离度量学习方法[J]. 数据采集与处理 2015(04)
    • [29].纹理合成中基于非标量距离度量的Graph Cut方法[J]. 计算机科学 2010(02)
    • [30].基于典型相关分析和距离度量学习的零样本学习[J]. 天津大学学报(自然科学与工程技术版) 2017(08)

    标签:;  ;  ;  ;  ;  

    信息距离理论及其在问答系统中的应用研究
    下载Doc文档

    猜你喜欢