论文摘要
随着互联网的飞速发展和普及,人们进入了开放的信息时代。信息时代给人们的学习和工作带了很大的便利,互联网也随之成为人们信息交流和共享的平台。但是互联网本身存在的动态性、异构性和无序性使人们很难快速、准确地找到自己想要的信息资源。针对互联网存在的问题,互联网的创始人Tim Berners-lee于1999年提出了语义网的构想。语义网上的资源有很好的定义,能够使人们更好的进行信息交流和协作。随着语义网思想的不断进步,人们也逐渐意识到基于语义网信息搜索的重要性,提出了一种新的信息检索方式—语义搜索。较传统的导航式的信息检索方式,语义搜索是语义层面的信息检索,能够提高信息检索的查全率和查准率,正迎合了人们对下一代搜索技术的需求。自从语义搜索提出以后,学者们对此投入了大量的研究,取得不少的成绩。但是,因为目前网络资源的海量性和广泛性,人们对语义搜索获取信息资源的效率并不满意。在此基础上,本课题将分类思想引入到了语义搜索领域,设计了一种基于三维分类的语义搜索模型。通过对信息的来源、存储和显示进行分类处理,以提高语义搜索的查全率和查准率。本课题主要研究内容和先进性有以下几点:一、本课题将贝叶斯和粗糙集的相结合,实现一种基于朴素贝叶斯加权的文本分类方法,将信息的来源进行了分类处理。通过对网页文本的分类,然后进行特征提取,从而使特征库具有了类别信息。二、本课题采用一种自底向上的本体概念选取方法,基于分类特征库,根据类别权重的高低来决定本体概念的选取,从而降低了本体概念选取的困难性。三、本课题基于以上的研究,设计了三维分类模型,将信息的来源、存储和显示进行了分类处理,提高了信息检索的查全率和查准率。本课题对语义搜索引擎进行了深入的研究,设计出一个语义搜索三维分类模型,并对模型的各模块进行了设计和实现,再结合实验对模型的可行性进行了论证。