论文摘要
随着Web上的信息猛速增长,基于关键词全文匹配的传统搜索引擎,已不能满足用户在查全率、查准率方面的需求。同时随着科技的发展,人们对于智能化、专业化的需求也一直在提高,如何让搜索引擎更加智能化、专业化是一个挑战。垂直搜索引擎正是在用户对专业化需求的环境下产生的,它通过主题爬虫对Web上特定领域的网页进行抓取,保存成网页库,然后被垂直搜索所使用。针对人们对于智能化的需求,人们发现了哲学的本体论可以被应用于信息检索中。本体技术是语义网中的一种先进的知识表示技术。本体具有良好的概念层次结构和对逻辑推理的支持能力,概念间关系概括语义的能力,能很好地为语义检索提供知识基础的能力。所以研究将本体论技术应用于主题爬虫成为了当今学术界热点。本论文分析了主题爬虫的国内外研究现状,结合了本体论技术,进行主题爬虫的研究与实现。本文的具体工作如下:(1)给出基于领域本体的主题爬虫的框架及相关模块介绍。(2)提出了根据本体层次树进行上下文主题描述,用于指导主题爬虫的爬行;(3)改进了本体层次树各概念的语义相似度及相关度计算方法,并给出了本体层次树各概念的向量表示综合方法;(4)根据本文的上下文主题描述,提出了网页内容与链接相关度的算法;(5)根据领域本体的构建方法及Protege本体构建工具,构建了教育技术领域的本体;(6)基于开源Bot.jar进行了扩展、实现基于领域本体的教育技术领域主题爬虫。实验表明,通过改进了本体层次树的概念相似度、相关度计算方法后,它们的综合方法能更好地区分概念间关系;本文所提出的基于领域本体的上下文主题描述,能有效指导爬虫,体现语义性;提出的基于领域本体的网页内容相关度和链接相关度算法能较大幅度地提高爬行的查准率。
论文目录
相关论文文献
- [1].网络主题爬虫技术初探[J]. 电子制作 2013(23)
- [2].面向地震宏观异常的主题爬虫研究[J]. 震灾防御技术 2013(04)
- [3].以主题爬虫视角进行数字资源的建设探析[J]. 电子技术与软件工程 2014(16)
- [4].基于动态主题库的主题爬虫[J]. 计算机应用 2009(S2)
- [5].一种面向农业信息主题网络爬虫的设计[J]. 安徽农业科学 2009(20)
- [6].基于关键词的生物主题爬虫设计[J]. 图书情报工作 2009(09)
- [7].主题爬虫的搜索策略研究[J]. 计算机工程与设计 2008(12)
- [8].基于VSM主题爬虫爬行策略的研究[J]. 信息通信 2014(02)
- [9].分布式主题爬虫的设计与实现[J]. 计算机应用与软件 2010(12)
- [10].基于概率模型的主题爬虫的研究和实现[J]. 计算机工程与科学 2013(01)
- [11].基于遗传算法的主题爬行技术研究[J]. 计算机与数字工程 2008(10)
- [12].主题爬虫在网络地震谣言信息获取识别中的应用研究初探[J]. 黑龙江科技信息 2016(30)
- [13].基于本体的主题网络爬虫设计[J]. 武汉理工大学学报 2009(03)
- [14].基于本体的主题爬虫技术研究[J]. 计算机仿真 2009(10)
- [15].用户定制主题爬虫的设计与实现[J]. 山西科技 2016(02)
- [16].爬虫技术综述[J]. 电脑知识与技术 2017(27)
- [17].基于本体的食品安全新闻爬虫的设计与实现[J]. 农业网络信息 2015(05)
- [18].基于本体的主题爬虫的研究[J]. 电脑知识与技术 2011(03)
- [19].Web文本分类中的反作弊研究[J]. 网友世界 2013(Z3)
- [20].一种基于语义分析的主题爬虫算法[J]. 计算机工程与科学 2010(09)
- [21].分布式主题爬虫的研究与设计[J]. 计算机光盘软件与应用 2015(01)
- [22].网络爬虫软件的研究与开发[J]. 软件导刊 2011(05)
- [23].基于语义爬虫的商品信息主题采集研究[J]. 现代图书情报技术 2010(01)
- [24].基于贝叶斯分类的主题爬虫[J]. 上海师范大学学报(自然科学版) 2013(06)
- [25].基于SVM预测的金融主题爬虫[J]. 四川大学学报(自然科学版) 2010(03)
- [26].主题爬虫设计与实现[J]. 软件 2013(12)
- [27].基于网络日志分析的混合策略主题爬虫[J]. 微计算机信息 2009(03)
- [28].基于本体的主题爬虫的设计与实现[J]. 科技情报开发与经济 2008(02)
- [29].主题爬虫搜索策略的研究[J]. 科技信息 2011(12)
- [30].基于遗传算法的主题爬虫策略改进[J]. 计算机仿真 2010(10)