论文摘要
目前导致信息查询质量低下的根本原因在于搜索引擎工具和搜索过程缺乏语义化,用户提交的需求通常是简单的机械式的语法匹配,缺乏语义理解,信息经常会被漏检,误检。解决这一问题,目前通常采用查询扩展技术。查询扩展是指将用户所提交的原始查询词的同义词、近义词等作为扩展查询词,形成新的查询,然后提交搜索引擎进行检索。近来,基于本体的语义查询扩展技术成为了研究的热点。本体论从本质上说是就是对客观存在的概念和概念之间关系的描述,基于本体的查询是基于知识的、语义上的检索,用户所提交的关键词经过一组推理操作,实现同义、上下位、及平级扩展,形成语义丰富的扩展概念集,最后再提交查询。因此,它弥补了传统的基于关键字查询技术的缺陷,从而在查准率上有更好的保证。论文从语义本体角度研究信息查询的模型和分析查询方法,目的旨在实现信息查询技术对语义的支持,最终提高检索的查准率。论文主要研究工作有:研究分析了基于本体的相关信息检索方法,构建了一个基于本体的信息检索框架,提出了基于语义相似度的局部查询扩展技术。基于语义相似度的局部查询扩展技术是在基于局部分析的查询扩展方法的基础上结合本体技术的改进方法。本体对信息的知识化表示使得该技术能够实现对语义的支持,优化了原方法进行局部文档分析的过程,提高了文档分析的效率。在本体技术和局部语料分析方法的双重保证下,提高了最终扩展结果的准确性和相关性。论文还提出了一种将网状本体结构模型优化为树状本体结构模型的方法,提高了语义概念相似度计算的效率。通过转换本体中概念间、实体间的横向联系,实现网络状结构到树状结构的转换,使本体保持清晰的树状层次结构,降低本体模型的复杂度,使本体结构清晰、概念间关系明确,概念相似度的计算也更加简便、高效。论文还使用了分层向量空间模型来对检索文档进行预处理,对分层向量空间模型进行分析后指出了模型原计算公式的错误,进行针对性修改后提出了本文的计算公式。最后利用本体构建工具构建了一个本体实例,通过实验验证本文语义查询优化框架以及相关方法的有效性,检索结果表明,本文提出的基于语义相似度查询扩展技术的检索结果比较全面且准确性高,最终达到了论文提高查准率的预期目标。