论文摘要
问答系统QA (Question Answering System)能为人们提供自然语言提问的方式,直接返回答案,而不是大量网页。相对于传统搜索引擎来说,问答系统能够更好地表达用户的需求,适应用户的习惯,回答信息也更准确,快捷,高效。它能克服传统搜索引擎存在的缺陷,是当前研究的热点问题。但由于自然语言固有的复杂性和技术等原因,目前开放域通用问答系统的正确率还远不能达到实用的要求。受限域问答系统服务于指定领域,且依托特定领域知识,服务领域的限定和知识库结构的相对有序,在一定程度上降低了对自然语言处理的难度,降低了受限域问答系统的研究难度,从而使受限域问答系统的尽快实用化成为可能。本文针对受限域问答系统中关键技术做了一些探讨,即如何借助现有领域知识从海量网络资源中获取信息并过滤掉和领域无关的信息;如何通过分析用户问题需求,并借助现有领域知识从获取到的领域信息中抽取问题准确的答案。主要取得了以下几个方面的成果:(1)提出了领域文本分类模型的构建方法。该方法采用支持向量机学习算法,结合样本统计与领域术语构造领域分类特征空间,利用领域内部知识关系,计算领域概念间的相关性,从而为分类特征赋予一定权重,进而构建领域文本分类模型。利用领域文本分类模型过滤非领域文本,为问答系统提供大量的领域信息,提高了文本检索的准确性。(2)提出了领域段落切分方法和领域段落检索算法。该方法借助段落检索的思想,结合领域问题特性和领域问题答案,提出了符合领域问题的段落切分方法,并借助领域知识改进了基于密度的段落检索算法,提取问题最相关段落作为答案抽取候选段落,进一步缩小了答案抽取范围。(3)提出了基于领域特性的答案抽取策略和算法。对受限域问答系统中的简单事实型问题、定义型问题采用了关键词分布密度的算法和问句与答案相似度计算相结合的方法;对受限域问答系统中的列举性问题采用了基于隐马尔科夫算法和条件随机场的命名实体识别技术,提高了问题答案抽取的召回率和准确率。(4)以云南旅游领域作为受限领域,进行了云南旅游的文本检索和分类实验、段落检索及答案抽取实验,设计并实现了云南旅游问答系统。