特定领域的Deep Web数据抽取与语义标注研究

特定领域的Deep Web数据抽取与语义标注研究

论文摘要

随着Internet技术的飞速发展,隐藏在Web后台数据库中的信息资源因为其数据量大、结构完整受到了广泛关注,这些信息资源通常是由用户在Web查询页面提交查询请求后,以HTML页面为中介展示给用户的。学者们通常将这些信息资源称之为Deep Web资源。为了最大程度的利用这些Deep Web资源,需要通过各种技术手段将网页中的无结构或者半结构化信息抽取出来。同时为了使抽取到的信息具有更高的使用价值,应该对这些数据进行语义标注,使其能够被机器所理解。本文对特定领域的Deep Web的数据抽取与语义标注进行了研究,将节点的类型信息引入到数据记录的抽取中来,并基于本体实现了语义标注,最后结合自身参与的项目设计了一个原型系统。本文的研究工作主要包括以下几点:1)简要概述了信息抽取的发展历史、评价标准和所涉及的相关技术,并对现有的信息抽取方法进行了深入的分析。2)结合Deep Web结果页面自身的特点,利用页面布局的视觉特征和内容特征,提出了一种利用标签过滤器、视觉特征过滤器、内容规则过滤器的页面净化方法。实验结果表明,该方法可以有效提高后续数据抽取的效率与精度。3)提出一种基于节点类型的数据记录抽取方法,该方法首先将HTML标签节点分为块、样式、文本、图片四种类型,并对每一种类型赋予一个权值,其次根据不同的节点类型来计算结果页面数据记录中各属性节点的熵值,最后通过此熵值来确定代表数据记录的节点,实现数据记录节点的抽取。与其他方法相比,该方法具有更高的效率。4)将领域本体作为Web数据库所遵循的全局模式,通过核密度、K-L距离等方法来实现本体与模式间的映射,从而实现数据的语义标注功能。实验结果表明该方法具有一定的优越性。5)在上述研究的基础上设计了一个面向生物医药领域的信息集成平台。

论文目录

  • 中文摘要
  • Abstract
  • 第1章 引言
  • 1.1 研究背景
  • 1.2 国内外的研究动态
  • 1.3 研究难点
  • 1.4 论文主要研究内容
  • 1.5 论文的结构安排
  • 第2章 Web 信息抽取
  • 2.1 Web 信息抽取的发展历史
  • 2.2 Web 信息抽取方法的分类
  • 2.3 Web 信息抽取相关技术介绍
  • 2.3.1 HTML、XML、XHTML 介绍
  • 2.3.2 DOM 模型
  • 2.3.3 字符串匹配技术
  • 2.3.4 树匹配技术
  • 2.4 Web 信息抽取评价标准
  • 2.4.1 Web 信息抽取结果的评价
  • 2.4.2 Web 信息抽取性能的评价
  • 2.5 本章小结
  • 第3章 Deep Web 结果页面数据记录抽取
  • 3.1 相关概念定义
  • 3.2 Deep Web 结果页面净化
  • 3.2.1 研究意义
  • 3.2.2 相关研究
  • 3.2.3 网页净化算法
  • 3.3 针对数据记录的自动抽取方法
  • 3.3.1 基本思路
  • 3.3.2 相关研究
  • 3.3.3 抽取方法描述
  • 3.4 实验
  • 3.4.1 实验数据
  • 3.4.2 页面净化算法实验结果及分析
  • 3.4.3 数据记录抽取算法实验结果及分析
  • 3.5 本章小结
  • 第4章 基于领域本体的数据项抽取及语义标注
  • 4.1 问题描述
  • 4.1.1 数据项抽取与语义标注的关系
  • 4.1.2 常见的语义标注方法与缺陷
  • 4.2 本体知识概述
  • 4.2.1 本体的定义
  • 4.2.2 本体的作用
  • 4.2.3 本体的描述语言
  • 4.3 研究思路
  • 4.4 领域本体的构建
  • 4.5 本体与接口/结果模式的映射
  • 4.5.1 接口模式与结果模式特征分析
  • 4.5.2 基于多相似度的映射模型
  • 4.6 语义标注算法实现
  • 4.7 实验结果及分析
  • 4.8 本章小结
  • 第5章 原型系统设计
  • 5.1 系统背景
  • 5.2 系统架构及流程
  • 5.3 核心模块设计
  • 5.3.1 Deep Web 聚焦爬虫
  • 5.3.2 数据记录抽取子系统
  • 5.3.3 数据标注子系统
  • 5.3.4 基于Lucene 的全文检索子系统
  • 5.4 本章小结
  • 第6章 总结与展望
  • 6.1 工作总结
  • 6.2 特色与创新
  • 6.3 工作展望
  • 参考文献
  • 攻读学位期间公开发表的论文与参与的科研项目
  • 致谢
  • 相关论文文献

    • [1].数字化校园建设中数据抽取技术研究[J]. 河南财政税务高等专科学校学报 2015(06)
    • [2].船舶监控系统运行数据抽取与分析方案设计[J]. 船海工程 2020(03)
    • [3].数据抽取在征信系统中的应用[J]. 科技创新导报 2009(01)
    • [4].数据抽取在征信系统中的应用[J]. 科技创新导报 2009(02)
    • [5].基于可变时间窗口的增量数据抽取模型[J]. 计算机科学 2018(11)
    • [6].数据抽取及交换工具的设计与实现[J]. 软件 2015(08)
    • [7].一种新型增量数据抽取方法的研究[J]. 黑龙江科技信息 2016(36)
    • [8].一种大数据时代海量数据抽取的开发模型研究[J]. 计算机应用研究 2013(11)
    • [9].数据挖掘技术在数据抽取中的研究与应用[J]. 内蒙古师范大学学报(自然科学汉文版) 2008(04)
    • [10].决策支持系统的数据抽取方法的研究[J]. 无线互联科技 2011(03)
    • [11].论工商行业数据中心建设中数据抽取的技术实现方式[J]. 计算机与现代化 2009(08)
    • [12].临床科研数据抽取研究[J]. 医学信息学杂志 2020(07)
    • [13].人力资源管理系统中数据抽取模块的实现[J]. 电脑知识与技术 2008(05)
    • [14].数据抽取中数据预处理[J]. 电子技术与软件工程 2014(07)
    • [15].基于数据抽取的决策支持系统研究与实现[J]. 数字技术与应用 2018(03)
    • [16].基于服务专业化的数据抽取方法研究[J]. 河南大学学报(自然科学版) 2012(06)
    • [17].ETL数据抽取研究综述[J]. 软件导刊 2010(10)
    • [18].供电管线到综合管线的数据抽取语义映射机制[J]. 江苏城市规划 2015(11)
    • [19].保险数据仓库数据抽取的设计与实现[J]. 中国金融电脑 2011(04)
    • [20].基于KPS的HTML数据抽取[J]. 网络安全技术与应用 2009(03)
    • [21].地震叠后数据抽取中关键问题探讨[J]. 胜利油田职工大学学报 2008(06)
    • [22].Web数据抽取技术的研究和探讨[J]. 电子世界 2015(13)
    • [23].基于XML的无监督数据抽取研究[J]. 黑龙江科技信息 2013(17)
    • [24].Deep Web数据抽取的分析与研究[J]. 南开大学学报(自然科学版) 2012(03)
    • [25].基于WEB的数据抽取及应用实例[J]. 中国新技术新产品 2009(19)
    • [26].银行CRM系统数据抽取的研究[J]. 计算机应用与软件 2008(03)
    • [27].面向领域的Web数据抽取与集成[J]. 计算机科学 2013(S1)
    • [28].基于关键属性比对的增量数据抽取方法[J]. 计算机工程与应用 2012(04)
    • [29].基于语义支持的Deep Web数据抽取[J]. 计算机科学 2010(03)
    • [30].Web数据抽取技术研究初探[J]. 电脑知识与技术 2009(35)

    标签:;  ;  ;  ;  

    特定领域的Deep Web数据抽取与语义标注研究
    下载Doc文档

    猜你喜欢