论文摘要
在迅速发展的Web时代,问答系统在互联网上扮演了越来越重要的角色,而日益增多并且成熟的互联网用户对问答系统的要求也越来越高,其功能也在不断丰富和完善当中,除了推理功能等,输入自动检查纠错功能也是一项非常重要的附加技术。对于中文问答系统来说,输入自动检查纠错功能是指,用户在输入关键词进行搜索之后,如果问答系统没有计算出与用户问句相同的句子,而经过对用户句子进行纠错之后,能够得到与用户问句相似的句子,则用户将会在问答系统页面看到系统提供的推测到的相似问句。针对以上问题,根据中文语言的特点,对中文语料库建立了N-gram统计语言模型,并且对其进行了详细的分析,确定了语言模型所必需的参数,以及对其进行了优化处理,使其更加接近真实情况下的语言。研究中引入了拼音纠错和映射表相结合的纠错方法,并首次提出使用语言模型解码算法对纠错检查结果再次计算比较,最终得出优化的纠错结果。以上所提出的理论模型,本文进行了实验验证,在统计语言模型的基础上,采用三种不同的纠错方法进行实验对比,一是只有拼音纠错,二是拼音纠错与映射表结合,三是拼音纠错与映射表结合并利用语言模型解码算法优化。最后对实验结果进行了分析,验证得出利用最后一种方法即第三种方法能够取得较好的效果,并且上下文语境信息越多,纠错的召回率和准确率也就越高。最后,对本论文所做的工作进行总结,指出了下一步的研究方向。