论文摘要
Web信息,根据蕴涵信息的“深度”可以划分为Surface Web和Deep Web两大类。其中:Surface Web是指通过超链接可以被传统搜索引擎索引到的页面的集合。Deep Web是指通过填写表单(Form)形成对网站后台数据库的查询而得到的动态页面。如何有效地组、管理Deep Web信息,快速、准确地访问用户所需要的信息是当前信息科学和技术领域面临的一大挑战。随着动态网页技术的发展和日益成熟,Deep Web所蕴含信息量的快速增长,通过对Web数据库的访问逐渐成为获取信息的主要手段,而对Deep Web的研究也越来越受到人们的关注。作为组织和处理大规模Deep Web信息的关键技术,Deep Web数据集成可一定程度上解决用户访问互联网中这些“深度”数据库的需求;同时,Deep Web数据集成的相关技术在信息检索、数据挖掘、数据抽取、个性化服务、数字图书馆等领域有广阔的应用前景。本文研究内容和创新工作主要包括以下几点:(1)Deep Web集成模式的研究现实中Deep Web的类型多种多样,用户需求也各不相同,需要考虑不同情况的Deep Web数据集成。论文研究了Deep Web间的关系,以及这些关系对Deep Web数据集成系统查询处理的约束,并在此基础提出Deep Web数据集成的集成模式,以及不同集成模式下查询处理的过程。为不同类型Deep Web数据集成的进一步研究和应用提供参考。(2)基于机器学习的Web数据库分类大量的deep Web源的存在,对他们的分类是通向deep Web分类集成和查询的关键步骤。论文提出了一种Deep Web表示模型和基于机器学习的分类模型,并在此基础上提出一种新的权重计算方法。实验结果表明:这种分类方法经过少量样本训练后,就能达到很好的分类效果;且随着训练的样本的增加,该分类器的性能保持稳定。(3)基于本体的Deep Web查询接口分类本体是一种知识表示模型,用来在某个特定领域中定义基本术语、关系和一些规则,并将之表示成机器可读的形式。针对deep Web查询接口,论文提出一种分类本体模型和建立本体的推理规则,并提出了deep Web空间向量模型(VSM)。试验表明,这种分类方法具有良好的分类效果。(4)基于知识的deep Web集成环境变化处理的研究研究了Deep Web集成环境中构件的依赖关系,在此基础上,论文提出了一种基于知识的环境变化的处理方法,包括Deep Web集成环境变化处理模型以及适应Deep Web环境变化的动态体系结构和处理算法,可以对大规模Deep Web集成的进一步探索和走向应用提供参考。实验结果表明,该方法不仅可以处理Deep Web集成环境的变化,还可以大幅度提高集成系统的性能。(5)基于Deep Web的个性化服务的研究个性化推荐可以实现“信息找人”,可一定程度上解决由于海量信息而导致的“信息过载”和“信息迷向”问题。论文提出了一种基于Deep Web的个性化服务的框架,包括:基于资源元数据描述为语义基础的用户兴趣模型、Deep Web爬虫和个性化推荐,并在个性化推荐的算法中提出了一种新的基于语义的相似度度量方法。最后,基于上述思想的基础上,开发了一个科技文献推荐系统,使用户在尽可能少的参与下,就完成科技文献的个性化服务。
论文目录
相关论文文献
- [1].基于结果模式的Deep Web数据标注方法[J]. 计算机应用 2011(07)
- [2].基于启发式信息的Deep Web结果模式获取方法[J]. 计算机应用研究 2011(08)
- [3].Deep Web语义搜索系统设计[J]. 武汉理工大学学报 2010(16)
- [4].Deep Web中基于聚类的复杂模式匹配[J]. 微计算机信息 2009(06)
- [5].Deep Web数据源的发现和分类[J]. 上海师范大学学报(自然科学版) 2016(05)
- [6].一种基于领域本体的Deep Web实体信息提取的后处理方法[J]. 安徽工程大学学报 2016(05)
- [7].基于领域本体的Deep Web内容获取技术研究[J]. 广西师范大学学报(自然科学版) 2011(01)
- [8].半结构化的Deep Web信息抽取技术[J]. 电脑知识与技术 2010(15)
- [9].结合匹配度和语义相似度的Deep Web查询接口模式匹配[J]. 计算机应用 2012(06)
- [10].一种面向Deep Web数据源的重复记录识别模型[J]. 电子学报 2010(02)
- [11].基于Deep Web挖掘的搜索策略[J]. 福建电脑 2008(03)
- [12].Deep Web集成服务的不确定模式匹配[J]. 计算机学报 2008(08)
- [13].Deep Web搜索技术进展综述[J]. 山东大学学报(工学版) 2009(02)
- [14].一种deep web数据源下重复记录识别模型(英文)[J]. Journal of Southeast University(English Edition) 2008(03)
- [15].基于模板和领域本体的Deep Web信息抽取研究[J]. 计算机工程与设计 2014(01)
- [16].基于蚂蚁算法的Deep Web页面信息抽取方法研究[J]. 煤炭技术 2013(02)
- [17].基于伪属性语义匹配的Deep web信息抽取[J]. 四川大学学报(工程科学版) 2009(02)
- [18].基于循环策略和动态知识的deep Web数据获取方法[J]. 通信学报 2012(10)
- [19].基于布尔矩阵的Deep Web复杂模式匹配[J]. 计算机工程 2011(12)
- [20].基于结果模式的Deep Web数据集成[J]. 小型微型计算机系统 2010(05)
- [21].Deep Web下基于中文分词的聚类算法[J]. 计算机工程与应用 2011(04)
- [22].基于本体和语义相似度的Deep Web数据源发现技术[J]. 计算机光盘软件与应用 2012(20)
- [23].基于Deep Web的主题搜索引擎的系统设计[J]. 数字技术与应用 2011(02)
- [24].Deep web在个性化信息服务中的应用[J]. 电子商务 2010(08)
- [25].Deep Web数据集成中模式匹配算法的研究[J]. 西安欧亚学院学报 2009(01)
- [26].基于潜在语义分析的Deep Web查询接口聚类研究[J]. 计算机科学 2013(11)
- [27].基于抽样的Deep Web模式匹配框架[J]. 计算机工程与应用 2015(03)
- [28].基于规则集的Deep Web信息检索[J]. 计算机工程 2008(13)
- [29].Deep web站点查询界面的潜在语义分析(英文)[J]. Journal of Southeast University(English Edition) 2008(03)
- [30].基于主题Deep Web数据挖掘的研究与探索[J]. 电脑知识与技术 2012(16)