论文摘要
当今,全球正处于信息知识爆炸式发展的时代。因而互联网作为重要的信息载体,其信息容量也在急剧膨胀。目前Web的信息结构按照其分布和位置特征可以将其划分为Surface Web与Deep Web两部分。相比Surface Web, Deep Web具有信息量更大、信息质量更好、主题更专一以及结构性更强等特点。目前,关于Deep Web信息集成的研究越来越受到关注,而Deep Web数据源聚焦技术正是这项研究的首要前提与核心内容之一,本文在对以往Deep Web信息集成及DeepWeb数据源发现技术学习的基础上,针对在判别Deep Web查询接口页面与查询接口表单特征时,提取精度低且忽略领域主题词汇语义信息而造成的领域相关Deep Web查询接口表单遗漏的问题,提出了一种基于领域本体的Deep Web数据源聚焦方法。本体作为语义网的重要技术之一,其良好的概念层次结构和对逻辑推理的支持,以及通过关系表达语义的能力,能够从语义层次上理解Web页面与查询接口的主题内容,提高领域DeepWeb分类的准确率。本文设计了基于领域本体的Deep Web聚焦爬虫框架和Deep Web数据源查询接口识别分类框架,通过两个框架的协同合作共同实现了对领域主题相关Deep Web查询接口页面表单的提取。论文主要的研究工作以及创新点如下:(1)本文重点介绍了本体相关知识并分析了领域本体的组成结构,根据领域本体的构建方法并结合旅游领域相关Deep Web查询接口表单特征,以OWL 2作为编码语言,构建了旅游领域本体。(2)本文通过国内外研究者的成果说明领域本体知识对领域信息特征描述的重要作用,加之对Web聚焦爬虫的搜索机制进行分析,阐明了将领域本体管理模块引入Deep Web聚焦爬虫中的可行性以及指导爬虫进行主题Web页面爬行的优势,提出了基于领域本体的Deep Web聚焦爬虫框架。(3)本文结合本体中概念的层次特点与语义关系,构建了领域本体管理模块,在该模块中提出了利用本体概念树中主题概念与其上下文概念间语义关系构造的主题相似度综合得分计算方法,并以此作为Deep Web聚焦爬虫对Web页面的特征信息构建特征向量的依据。从而达到准确的识别出领域主题相关的表单页面的目的。(4)本文结合PageRank算法对URL的主题相关性计算进行了改进,并提出了结合页面主题相关度与URL主题相关度的URLs特征优选模块方案。(5)本文提出了一种识别Deep Web查询接口的方法,利用该方法对Web页面中的表单进行结构特征提取,利用这些特征根据D-T算法构造规则树,从而实现了对Deep Web查询接口表单的有效识别。(6)本文将领域本体管理模块与Deep Web查询接口分类模块结合,根据查询接口属性特征与本体属性特征的相似性分析,提出了本体主题概念子树中主题概念与其主题情景属性的相似度综合得分计算方法,并以此作为Deep Web查询接口分类模块对Web查询接口特征信息构建特征向量的依据。从而达到更加细化的识别出领域子主题相关的Deep Web查询接口表单的目的。(7)本文结合领域本体管理模块分别对聚焦爬虫获取的页面和查询接口的文本特征进行了两次主题分类。前者侧重于对领域主题概念的广度相关页面收集,力争在过滤非领域主题相关页面时,尽量不丢掉任何与领域主题相关的页面或者含有其被URL链接指向的页面;而后者则侧重于对领域主题概念的深度接口属性特征收集,使得即使是属于同一领域下,但是属于不同子主题概念相关的查询接口都尽量被清楚的分类。本文最后通过对各个模块部分进行的实验,给出了性能评价与分析,实验结果表明该方法使得Deep Web数据源判别与主题分类的准确性得到有效提高。
论文目录
相关论文文献
- [1].基于结果模式的Deep Web数据标注方法[J]. 计算机应用 2011(07)
- [2].基于启发式信息的Deep Web结果模式获取方法[J]. 计算机应用研究 2011(08)
- [3].Deep Web语义搜索系统设计[J]. 武汉理工大学学报 2010(16)
- [4].Deep Web中基于聚类的复杂模式匹配[J]. 微计算机信息 2009(06)
- [5].Deep Web数据源的发现和分类[J]. 上海师范大学学报(自然科学版) 2016(05)
- [6].一种基于领域本体的Deep Web实体信息提取的后处理方法[J]. 安徽工程大学学报 2016(05)
- [7].基于领域本体的Deep Web内容获取技术研究[J]. 广西师范大学学报(自然科学版) 2011(01)
- [8].半结构化的Deep Web信息抽取技术[J]. 电脑知识与技术 2010(15)
- [9].结合匹配度和语义相似度的Deep Web查询接口模式匹配[J]. 计算机应用 2012(06)
- [10].一种面向Deep Web数据源的重复记录识别模型[J]. 电子学报 2010(02)
- [11].基于Deep Web挖掘的搜索策略[J]. 福建电脑 2008(03)
- [12].Deep Web集成服务的不确定模式匹配[J]. 计算机学报 2008(08)
- [13].Deep Web搜索技术进展综述[J]. 山东大学学报(工学版) 2009(02)
- [14].一种deep web数据源下重复记录识别模型(英文)[J]. Journal of Southeast University(English Edition) 2008(03)
- [15].基于模板和领域本体的Deep Web信息抽取研究[J]. 计算机工程与设计 2014(01)
- [16].基于蚂蚁算法的Deep Web页面信息抽取方法研究[J]. 煤炭技术 2013(02)
- [17].基于伪属性语义匹配的Deep web信息抽取[J]. 四川大学学报(工程科学版) 2009(02)
- [18].基于循环策略和动态知识的deep Web数据获取方法[J]. 通信学报 2012(10)
- [19].基于布尔矩阵的Deep Web复杂模式匹配[J]. 计算机工程 2011(12)
- [20].基于结果模式的Deep Web数据集成[J]. 小型微型计算机系统 2010(05)
- [21].Deep Web下基于中文分词的聚类算法[J]. 计算机工程与应用 2011(04)
- [22].基于本体和语义相似度的Deep Web数据源发现技术[J]. 计算机光盘软件与应用 2012(20)
- [23].基于Deep Web的主题搜索引擎的系统设计[J]. 数字技术与应用 2011(02)
- [24].Deep web在个性化信息服务中的应用[J]. 电子商务 2010(08)
- [25].Deep Web数据集成中模式匹配算法的研究[J]. 西安欧亚学院学报 2009(01)
- [26].基于潜在语义分析的Deep Web查询接口聚类研究[J]. 计算机科学 2013(11)
- [27].基于抽样的Deep Web模式匹配框架[J]. 计算机工程与应用 2015(03)
- [28].基于规则集的Deep Web信息检索[J]. 计算机工程 2008(13)
- [29].Deep web站点查询界面的潜在语义分析(英文)[J]. Journal of Southeast University(English Edition) 2008(03)
- [30].基于主题Deep Web数据挖掘的研究与探索[J]. 电脑知识与技术 2012(16)