论文摘要
伴随着信息化时代的到来,万维网(WWW)已经成为人们日常生活中非常重要的信息源。但是随着网络信息覆盖面逐渐扩大,增长速度不断加快,人们对获取信息的快捷性要求也越来越高。互联网用户要求搜索引擎能够提供更加专业和个性化的服务,此时传统的搜索引擎就显得力不从心了。本体技术作为一种先进的知识表示技术具有良好逻辑推理支持能力和较为完善的概念层次结构。近些年来,将本体技术应用于搜索引擎当中创造出的基于本体的语义搜索引擎开始受到人们的关注。基于语义的搜索引擎能够更好的理解用户的需求从而提供更加精准的分类和智能化的网络服务。本论文首先介绍了搜索引擎的国内外现状及基本功能,然后分析了语义爬虫的爬行原理,并重点分析了现阶段语义爬虫的搜索策略及其劣势。在利用“七步法”构建食品本体的前提下,并综合分析以上问题,提出了一种基于本体的语义拓展算法。在对网页进行少量预处理的前提下,利用本体解析结果生成爬行规则,不仅能够在搜索时获得更好的准确率和召回率,而且能够对爬行出的网页进行一定的推理。实验结果表明该系统可以有效地提高搜索的准确率和召回率。