论文摘要
事实类问题回答系统包括:问题预处理、问题分析、文档检索、答案抽取、答案排序及答案映射。本文首先详细讨论了事实类问题回答的模块组织,以及实现这些模块的常用方法。然后对其中的文档检索和答案排序两模块进行了深入的分析,提出了有效的改进方法。文档检索的性能是文档系统所有后续处理的基础。本文讨论了查询扩展在检索模块中的作用,并实现了一种基于自动反馈技术的查询扩展技术。详细讨论了查询扩展的方法:利用初次检索得到的相关文档集获取可能的扩展查询项。对扩展查询项计算置信度时,引入了Wordnet对置信度进行调整。实验证明,加入了查询扩展技术的检索模块在返回文档集合包含正确答案的比例及冗余度上均有明显的提升。事实类问题回答系统中另一个中要模块是答案排序模块。答案排序效果的好坏直接决定了整个系统的性能,而答案排序的核心是评判候选答案与问题的置信度。本文中使用语法分析和统计方法构建了一个新的事实类问题回答系统的答案排序模型,其中我们使用SVM训练了一个对候选答案评价的评价函数。充分利用了两类特征:基于密度方法的特征和基于语法分析的特征,并在TREC问题集上进行了实验,实验结果表明,新的答案排序模型能够有效地对候选答案评价,并提高了系统返回的答案结果集的质量。
论文目录
摘要Abstract第1章 引言1.1 问题回答系统1.2 事实类问题回答1.3 本文组织结构第2章 研究背景2.1 TREC的问题回答任务2.2 相关工作2.3 本文工作第3章 事实性问题回答方法研究3.1 系统架构3.1.1 问题预处理3.1.2 问题分析3.1.3 文档检索3.1.4 答案抽取3.1.5 答案排序3.1.6 答案映射3.2 查询扩展3.2.1 查询扩展技术3.2.2 生成初始查询3.2.3 获取首次搜索文档集3.2.4 形成扩展的查询3.2.5 句子粒度抽取3.3 答案排序3.3.1 答案排序模型3.3.2 支持向量机3.3.3 特征选取第4章 实验及结果分析4.1 TREC事实类问题评测4.2 查询扩展实验4.2.1 评价指标4.2.2 Baseline系统4.2.3 扩展查询的检索性能4.2.4 返回文档的冗余性4.3 答案排序实验4.3.1 评价指标4.3.2 Baseline系统4.3.3 评价函数H4.3.4 答案排序性能4.3.5 核函数选取第5章 结论和展望参考文献攻读硕士学位期间参加的科研项目和发表的论文致谢
相关论文文献
标签:自动问答系统论文; 自然语言处理论文; 信息检索论文; 事实类问题回答论文;