Deep Web集成中若干技术研究

Deep Web集成中若干技术研究

论文摘要

Web信息,根据蕴涵信息的“深度”可以划分为Surface Web和Deep Web两大类。其中:Surface Web是指通过超链接可以被传统搜索引擎索引到的页面的集合。Deep Web是指通过填写表单(Form)形成对网站后台数据库的查询而得到的动态页面。如何有效地组、管理Deep Web信息,快速、准确地访问用户所需要的信息是当前信息科学和技术领域面临的一大挑战。随着动态网页技术的发展和日益成熟,Deep Web所蕴含信息量的快速增长,通过对Web数据库的访问逐渐成为获取信息的主要手段,而对Deep Web的研究也越来越受到人们的关注。作为组织和处理大规模Deep Web信息的关键技术,Deep Web数据集成可一定程度上解决用户访问互联网中这些“深度”数据库的需求;同时,Deep Web数据集成的相关技术在信息检索、数据挖掘、数据抽取、个性化服务、数字图书馆等领域有广阔的应用前景。本文研究内容和创新工作主要包括以下几点:(1)Deep Web集成模式的研究现实中Deep Web的类型多种多样,用户需求也各不相同,需要考虑不同情况的Deep Web数据集成。论文研究了Deep Web间的关系,以及这些关系对Deep Web数据集成系统查询处理的约束,并在此基础提出Deep Web数据集成的集成模式,以及不同集成模式下查询处理的过程。为不同类型Deep Web数据集成的进一步研究和应用提供参考。(2)基于机器学习的Web数据库分类大量的deep Web源的存在,对他们的分类是通向deep Web分类集成和查询的关键步骤。论文提出了一种Deep Web表示模型和基于机器学习的分类模型,并在此基础上提出一种新的权重计算方法。实验结果表明:这种分类方法经过少量样本训练后,就能达到很好的分类效果;且随着训练的样本的增加,该分类器的性能保持稳定。(3)基于本体的Deep Web查询接口分类本体是一种知识表示模型,用来在某个特定领域中定义基本术语、关系和一些规则,并将之表示成机器可读的形式。针对deep Web查询接口,论文提出一种分类本体模型和建立本体的推理规则,并提出了deep Web空间向量模型(VSM)。试验表明,这种分类方法具有良好的分类效果。(4)基于知识的deep Web集成环境变化处理的研究研究了Deep Web集成环境中构件的依赖关系,在此基础上,论文提出了一种基于知识的环境变化的处理方法,包括Deep Web集成环境变化处理模型以及适应Deep Web环境变化的动态体系结构和处理算法,可以对大规模Deep Web集成的进一步探索和走向应用提供参考。实验结果表明,该方法不仅可以处理Deep Web集成环境的变化,还可以大幅度提高集成系统的性能。(5)基于Deep Web的个性化服务的研究个性化推荐可以实现“信息找人”,可一定程度上解决由于海量信息而导致的“信息过载”和“信息迷向”问题。论文提出了一种基于Deep Web的个性化服务的框架,包括:基于资源元数据描述为语义基础的用户兴趣模型、Deep Web爬虫和个性化推荐,并在个性化推荐的算法中提出了一种新的基于语义的相似度度量方法。最后,基于上述思想的基础上,开发了一个科技文献推荐系统,使用户在尽可能少的参与下,就完成科技文献的个性化服务。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景和研究意义
  • 1.2 DEEP WEB数据集成需要解决的问题
  • 1.3 研究现状
  • 1.4 本文研究内容
  • 1.5 本文结构
  • 第二章 DEEP WEB数据集成技术
  • 2.1 DEEP WEB形式描述
  • 2.2 DEEP WEB访问流程
  • 2.3 DEEP WEB分类
  • 2.4 DEEP WEB集成系统的工作原理
  • 2.5 DEEP WEB数据库集成技术
  • 2.5.1 Web数据库发现技术
  • 2.5.2 接口抽取技术
  • 2.5.3 Web数据库分类技术
  • 2.5.4 模式匹配技术
  • 2.5.5 统一查询接口生成技术
  • 2.5.6 Web数据库选择技术
  • 2.5.7 查询转换技术
  • 2.5.8 数据抽取技术
  • 2.5.9 语义标注技术
  • 2.5.10 数据合成技术
  • 2.6 结论
  • 第三章 DEEP WEB数据集成模式的研究
  • 3.1 引言
  • 3.2 DEEP WEB关系
  • 3.3 DEEP WEB数据集成模式
  • 3.3.1 同领域集成
  • 3.3.2 关联集成
  • 3.3.3 聚合集成
  • 3.3.4 不同集成模式处理的比较
  • 3.4 应用和思考
  • 3.5 结论
  • 第四章 一种基于机器学习的WEB数据库分类
  • 4.1 引言
  • 4.2 问题描述
  • 4.3 WEB数据库表示模型
  • 4.4 特征选择技术
  • 4.4.1 信息增量(Information Gain)
  • 4.4.2 互信息(Mutual Information)
  • 2统计'>4.4.3 x2统计
  • 4.4.4 交叉熵(Cross Entropy)
  • 4.4.5 证据权值(Weight of Evidence)
  • 4.4.6 Fisher判别式
  • 4.5 分类方法
  • 4.5.1 基于统计的方法
  • 4.5.2 人工神经网络
  • 4.5.3 基于规则的方法
  • 4.6 基于机器学习的WEB数据库分类模型
  • 4.7 实验
  • 4.7.1 实验设计
  • 4.7.2 实验结果
  • 4.8 结论
  • 第五章 基于本体的DEEP WEB查询接口分类
  • 5.1 引言
  • 5.2 DEEP WEB查询接口本体模型
  • 5.3 DEEP WEB本体生成
  • 5.4 基于本体的分类
  • 5.5 试验
  • 5.5.1 实验设计
  • 5.5.2 试验结果
  • 5.6 结论
  • 第六章 基于知识的DEEP WEB集成环境变化处理的研究
  • 6.1 引言
  • 6.2 相关概念
  • 6.3 DEEP WEB集成环境和构件依赖
  • 6.3.1 Deep Web集成环境的特点
  • 6.3.2 构件的依赖关系
  • 6.3.3 环境变化处理模型
  • 6.4 DEEP WEB集成的体系结构
  • 6.4.1 动态体系结构
  • 6.4.2 Deep Web集成环境变化自适应算法
  • 6.5 实验
  • 6.5.1 实验设计
  • 6.5.2 结果与分析
  • 6.6 结论
  • 第七章 基于DEEP WEB的个性化服务研究
  • 7.1 引言
  • 7.2 用户兴趣模型
  • 7.2.1 用户兴趣模型的表示
  • 7.2.2 用户兴趣模型建立方法的分类
  • 7.2.3 评价用户建模的基本标准
  • 7.2.4 现有的用户模型构造方法
  • 7.3 基于资源元数据为语义基础的用户兴趣模型
  • 7.3.1 科技文献的元数据描述
  • 7.3.2 初始用户兴趣模型的构造
  • 7.3.3 用户兴趣模型的更新
  • 7.4 DEEP WEB爬虫
  • 7.4.1 相关概念
  • 7.4.2 Deep Web的访问模式
  • 7.4.3 Deep Web爬虫算法
  • 7.5 个性化推荐
  • 7.6 基于DEEP WEB的科技文献个性化推送系统
  • 7.6.1 体系结构
  • 7.6.2 科技文献获取与更新
  • 7.6.3 用户兴趣模型的构建和更新
  • 7.7 实验
  • 7.7.1 实验环境
  • 7.7.2 实验结果与分析
  • 7.8 结论
  • 第八章 总结与展望
  • 8.1 总结
  • 8.2 进一步的工作
  • 附录A 查询接口模式样例
  • 参考文献
  • 攻读博士学位期间参与的科研项目及主要成果
  • 致谢
  • 相关论文文献

    • [1].基于结果模式的Deep Web数据标注方法[J]. 计算机应用 2011(07)
    • [2].基于启发式信息的Deep Web结果模式获取方法[J]. 计算机应用研究 2011(08)
    • [3].Deep Web语义搜索系统设计[J]. 武汉理工大学学报 2010(16)
    • [4].Deep Web中基于聚类的复杂模式匹配[J]. 微计算机信息 2009(06)
    • [5].Deep Web数据源的发现和分类[J]. 上海师范大学学报(自然科学版) 2016(05)
    • [6].一种基于领域本体的Deep Web实体信息提取的后处理方法[J]. 安徽工程大学学报 2016(05)
    • [7].基于领域本体的Deep Web内容获取技术研究[J]. 广西师范大学学报(自然科学版) 2011(01)
    • [8].半结构化的Deep Web信息抽取技术[J]. 电脑知识与技术 2010(15)
    • [9].结合匹配度和语义相似度的Deep Web查询接口模式匹配[J]. 计算机应用 2012(06)
    • [10].一种面向Deep Web数据源的重复记录识别模型[J]. 电子学报 2010(02)
    • [11].基于Deep Web挖掘的搜索策略[J]. 福建电脑 2008(03)
    • [12].Deep Web集成服务的不确定模式匹配[J]. 计算机学报 2008(08)
    • [13].Deep Web搜索技术进展综述[J]. 山东大学学报(工学版) 2009(02)
    • [14].一种deep web数据源下重复记录识别模型(英文)[J]. Journal of Southeast University(English Edition) 2008(03)
    • [15].基于模板和领域本体的Deep Web信息抽取研究[J]. 计算机工程与设计 2014(01)
    • [16].基于蚂蚁算法的Deep Web页面信息抽取方法研究[J]. 煤炭技术 2013(02)
    • [17].基于伪属性语义匹配的Deep web信息抽取[J]. 四川大学学报(工程科学版) 2009(02)
    • [18].基于循环策略和动态知识的deep Web数据获取方法[J]. 通信学报 2012(10)
    • [19].基于布尔矩阵的Deep Web复杂模式匹配[J]. 计算机工程 2011(12)
    • [20].基于结果模式的Deep Web数据集成[J]. 小型微型计算机系统 2010(05)
    • [21].Deep Web下基于中文分词的聚类算法[J]. 计算机工程与应用 2011(04)
    • [22].基于本体和语义相似度的Deep Web数据源发现技术[J]. 计算机光盘软件与应用 2012(20)
    • [23].基于Deep Web的主题搜索引擎的系统设计[J]. 数字技术与应用 2011(02)
    • [24].Deep web在个性化信息服务中的应用[J]. 电子商务 2010(08)
    • [25].Deep Web数据集成中模式匹配算法的研究[J]. 西安欧亚学院学报 2009(01)
    • [26].基于潜在语义分析的Deep Web查询接口聚类研究[J]. 计算机科学 2013(11)
    • [27].基于抽样的Deep Web模式匹配框架[J]. 计算机工程与应用 2015(03)
    • [28].基于规则集的Deep Web信息检索[J]. 计算机工程 2008(13)
    • [29].Deep web站点查询界面的潜在语义分析(英文)[J]. Journal of Southeast University(English Edition) 2008(03)
    • [30].基于主题Deep Web数据挖掘的研究与探索[J]. 电脑知识与技术 2012(16)

    标签:;  ;  ;  ;  ;  ;  ;  

    Deep Web集成中若干技术研究
    下载Doc文档

    猜你喜欢