论文摘要
随着信息技术的飞速发展,互联网上新的网页每天以惊人的速度在增长,这为满足用户检索信息提供了足够大的空间,但是想找到满足需求的信息也越来越成为困扰用户的一个问题。搜索引擎作为一种网上信息服务系统,为用户在Internet上查找信息提供了方便。用户在使用搜索引擎进行信息查找时,通常都是向搜索引擎提交一系列的查询词,但是由于自然语言的模糊性,用户提交的这些初始查询词并没有被搜索引擎准确理解,导致搜索引擎返回的信息中有些与用户的查询意图是不相关的,甚至有些还会严重偏离用户的搜索主题。解决词不匹配问题成为信息检索领域中十分重要的研究课题,查询扩展是解决词不匹配问题的有效技术。为了更好地解决查询词扩展技术存在的问题,论文结合形式概念分析( Formal Concept Analysis )与关键词加权进行了查询词扩展的研究。论文的主要研究内容归纳如下:1.提出一种对查询扩展源进行优化的方法。优化的基本思想是:首先分别对用户相关反馈过程中得到的文档和由搜索引擎返回的文档集中那些不同于用户相关反馈过程中得到的文档进行分析,运用形式概念分析的知识建立两个概念格( Concept Lattice ) ,为了区分,就把这两个概念格分别称之为“用户概念格”和“挖掘概念格”,然后通过计算概念相似值,在“挖掘概念格”中找出与“用户概念格”相似度较高的概念,最后抽取出这些概念的外延,并将它们加入到用户选择的文档集合中去,达到优化查询扩展源的目的。2.提出一种通过给关键词加权进行查询词扩展的方法。在这种方法中,首先把用户初始查询和查询扩展源中的文档转化为向量,通过计算向量之间的相似度得到文档与查询的相似权值,接着分别在单个文档和整个文档集中分析词的权重,然后把这些权重值进行合理的结合得到词的最终权重,最后选取那些权重值大的词作为查询扩展词。借助这种方法,可以在整个文档集中抽取出质量较高的词作为查询扩展词。论文最后通过20组不同主题的用户查询词以及搜索引擎对每组查询词返回的前50个网页进行实验验证。实验数据表明:论文提出的方法具有较大的实际应用价值,它能够明显地提高搜索引擎的准确率和召回率。