
论文摘要
随着万维网的迅速发展,Web中蕴藏着海量信息。研究表明,Deep Web蕴藏的信息量是Surface Web的500多倍。因此,对Deep Web中的信息进行处理并加以整合为用户所用已经成为Web信息检索领域的一个新兴研究热点。本文介绍了Deep Web信息集成领域的研究背景、研究现状,对Deep Web信息集成的几项关键技术进行了研究。首先对聚焦爬虫进行改进,设计一个基于主题的查询接口发现聚焦爬虫对Deep Web中的查询接口进行发现;然后采用基于权重值计算的方法对Deep Web中查询接口进行集成,分别讨论了1:1和n:m两种匹配情况,对匹配过程中的权重值计算方法进行了改进,采用《知网》概念模型中的词语相似度计算方法对匹配过程中遇到的标签及属性名进行相似度计算,解决了一般方法无法考虑词语概念相似度的问题;最后将移动Agent技术引入到Deep Web查询处理中来,设计了一个基于移动Agent的查询处理框架,采用移动Agent技术降低了查询处理模块对带宽和网络延时的要求,同时为Deep Web分布式查询处理提供了新思路。
论文目录
摘要ABSTRACT第一章 绪论1.1 课题研究背景1.2 国内外研究现状1.3 论文研究内容1.4 论文结构第二章 Deep Web信息集成概述2.1 Deep Web信息集成特点2.1.1 查询接口的模式集成2.1.2 Deep Web数据库选择2.2 Deep Web数据集成框架2.3 Deep Web数据集成关键技术2.3.1 查询接口发现2.3.2 查询接口集成2.3.3 查询处理2.4 本章小结第三章 Deep Web查询接口发现3.1 查询接口发现技术研究现状3.2 基于主题的查询接口发现聚焦爬虫设计3.3.1 聚焦爬虫原理简述3.3.2 聚焦爬虫设计3.3.3 主题分类目录(Topic Taxonomy)3.3.4 网页解析器(Page Analyzer)3.3.5 链接解析器(Link Analyzer)3.3.6 表单解析器(Form Analyzer)3.4 Deep Web主题爬虫爬行策略3.5 实验分析3.6 本章小结第四章 Deep Web查询接口集成4.1 查询接口集成技术研究现状4.2 查询接口模式抽取4.2.1 查询接口包含的控件4.2.2 查询接口模型化4.3 查询接口集成4.3.1 初步聚类(Initial Clustering)4.3.2 全局匹配(Global Matching)4.3.3 全局查询接口的布局及更新4.4 匹配中权重值的计算4.4.1 基于《知网》的1∶1语义匹配4.4.2 1∶1值域匹配计算4.4.3 n∶m匹配定义4.4.4 n∶m匹配计算4.5 实验分析4.6 本章小结第五章 Deep Web查询处理5.1 查询处理技术研究现状5.2 移动Agent技术5.2.1 移动Agent技术简介5.2.2 移动Agent平台Aglet5.3 基于移动Agent的查询处理框架设计5.4 基于Aglet的设计实现5.4.1 将数据库记录转换成XML文件5.4.2 基于Aglet的移动Agent实现5.5 本章小结第六章 总结与展望参考文献致谢攻读学位期间的主要研究成果
相关论文文献
标签:查询接口发现论文; 查询接口集成论文; 查询处理论文;