论文摘要
随着Internet信息的迅速增长,整个Web信息已经被各种各样的可搜索的在线数据库所深化,那些信息被隐藏在Web查询接口下面,即Deep Web信息。传统的搜索引擎爬虫程序由于技术原因不能索引Deep Web信息。为了方便用户快捷高效的使用Deep Web信息,Deep Web信息集成的研究已成为一个非常迫切的问题,具有广泛的应用前景和实用价值,已成为近年来的研究热点。本文对Deep Web信息集成的研究现状和发展趋势进行了深入的分析。在课题组前期工作的基础上,就Deep Web信息集成中若干关键技术进行了研究,这些研究包括了Deep Web数据源发现、Deep Web数据源分类聚类、Deep Web数据增量抓取策略以及Deep Web模式和数据抽取技术等内容。所做的工作和取得的创新成果主要体现在下面五个方面:(1)针对Deep Web数据源的动态性和稀疏分布的特征,提出了一种基于查询接口聚焦爬虫的Deep Web数据源发现方法,聚焦访问那些可能链接到Deep Web入口页面的链接,避免访问下载不必要的页面。除了考虑Deep Web入口页面和链接本身的特征以外,还考虑了通向目标页面路径上的特征。实验结果表明,该方法可以有效的提高Deep Web数据源发现的效率。(2)把Deep Web数据源按其所属领域进行组织,方便用户浏览这些有价值的资源,这是Deep Web信息集成的一个关键步骤。本文提出了一种基于查询接口特征的Deep Web分类方法和基于查询接口连接图的Deep Web聚类方法,从而可以对Deep Web数据源按其所属领域进行自动组织和管理。该方法不需提交查询采样Deep Web内部数据,同时由于Deep Web的接口页面获取容易,因此其具有较强的可扩展性。(3)由于Deep Web是自治的,独立更新的,因此对于一些应用需要周期性的抓取Deep Web内容以检查其更新。由于不同的Deep Web数据源或同一个Deep Web数据源内部数据记录的变化频率不一,按统一频率更新所有数据是非常浪费资源的。针对该问题本文提出了基于不同粒度的Deep Web数据增量抓取策略,其粒度可分为数据源和数据记录,根据不同的应用需求可选取不同的粒度。实验结果表明,该方法在相同资源约束前提下,可有效提高本地数据的时新性。(4) Deep Web查询接口和结果页面主要是通过HTML语言编写的,使得Deep Web上的数据是半结构化的甚至是无结构的,给Deep Web信息集成带来了很大的困难。网页主要是为了方便人们浏览从中获取有用的信息,而不是被计算机自动处理,因而获取页面的视觉信息可以从某种程度上模拟人类的行为对页面进行识别。本文提出了一种基于视觉特征的Deep Web模式和数据自动抽取方法,该方法使用Deep Web页面的视觉特征,避免了传统基于DOM树的方法依赖于HTML的定义,并且页面可以是HTML语言或任何其它语言描述的,包括非规范HTML语言描述,因此该方法具有较强的适应性。(5)根据所研究的关键技术和实际应用需求,提出了一个面向Deep Web的信息集成体系结构,并开发了一个Deep Web信息集成原型系统,该原型系统具有数据源发现、数据源管理、模式与数据抽取等功能,实际应用表明,该系统具有一定的实用价值。本项研究工作受到国家自然科学基金项目“面向Deep Web的不完备知识处理的逻辑模型研究”(编号:60673092)、江苏省高技术研究计划项目“面向Deep Web的搜索和挖掘关键技术研究”(编号:BG2005019)以及江苏省高校研究生科技创新计划项目“Deep Web信息集成关键技术研究”(编号:CX07B-122Z)的资助。