问答系统中文输入纠错技术研究

问答系统中文输入纠错技术研究

论文摘要

在迅速发展的Web时代,问答系统在互联网上扮演了越来越重要的角色,而日益增多并且成熟的互联网用户对问答系统的要求也越来越高,其功能也在不断丰富和完善当中,除了推理功能等,输入自动检查纠错功能也是一项非常重要的附加技术。对于中文问答系统来说,输入自动检查纠错功能是指,用户在输入关键词进行搜索之后,如果问答系统没有计算出与用户问句相同的句子,而经过对用户句子进行纠错之后,能够得到与用户问句相似的句子,则用户将会在问答系统页面看到系统提供的推测到的相似问句。针对以上问题,根据中文语言的特点,对中文语料库建立了N-gram统计语言模型,并且对其进行了详细的分析,确定了语言模型所必需的参数,以及对其进行了优化处理,使其更加接近真实情况下的语言。研究中引入了拼音纠错和映射表相结合的纠错方法,并首次提出使用语言模型解码算法对纠错检查结果再次计算比较,最终得出优化的纠错结果。以上所提出的理论模型,本文进行了实验验证,在统计语言模型的基础上,采用三种不同的纠错方法进行实验对比,一是只有拼音纠错,二是拼音纠错与映射表结合,三是拼音纠错与映射表结合并利用语言模型解码算法优化。最后对实验结果进行了分析,验证得出利用最后一种方法即第三种方法能够取得较好的效果,并且上下文语境信息越多,纠错的召回率和准确率也就越高。最后,对本论文所做的工作进行总结,指出了下一步的研究方向。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 引言
  • 1.1.1 研究背景和意义
  • 1.1.2 英文输入纠错研究现状
  • 1.1.3 中文输入纠错研究现状
  • 1.2 本文的主要内容
  • 1.3 章节安排
  • 第二章 问答系统及其技术介绍
  • 2.1 问答系统的原理介绍
  • 2.2 问答系统的关键技术
  • 2.2.1 中文分词
  • 2.2.2 词性标注
  • 2.2.3 关键词提取与扩展
  • 2.2.4 相似度计算
  • 2.3 本章小结
  • 第三章 统计语言模型的分析与建立
  • 3.1 N元语法
  • 3.2 模型的建立
  • 3.2.1 数据准备
  • 3.2.2 语言模型的存储方式
  • 3.2.3 语言模型压缩处理
  • 3.3 数据平滑
  • 3.3.1 问题的提出
  • 3.3.2平滑方法
  • 3.3.3 平滑算法的选择
  • 3.4 本章小结
  • 第四章 基于N-gram统计语言模型的中文纠错技术
  • 4.1 系统设计思想
  • 4.2 本文研究在系统中的关键技术
  • 4.2.1 二元接续关系查错
  • 4.2.2 汉字转拼音纠错算法
  • 4.2.3 映射表map的引入
  • 4.2.4 语言模型解码算法
  • 4.3 系统框架与流程
  • 4.4 系统测试与结果分析
  • 4.4.1 测试环境和测试语料
  • 4.4.2 系统纠错实验结果
  • 4.5 本章小结
  • 第五章 总结与展望
  • 参考文献
  • 致谢
  • 学位论文评阅及答辩情况表
  • 相关论文文献

    标签:;  ;  ;  ;  

    问答系统中文输入纠错技术研究
    下载Doc文档

    猜你喜欢