基于Web的信息抽取技术研究

基于Web的信息抽取技术研究

论文摘要

随着互联网的快速发展和普及,人们越来越依赖于网络获取信息。作为海量的信息来源,Web可以看成是一个巨大的数据库,包含着各种各样有价值的信息。基于Web的信息抽取技术就是研究如何从这些Web源中抽取出用户感兴趣的信息,并把这些抽取出的信息表示成更具有语义,更为结构化的形式,以便加以利用。该技术起源于信息抽取技术,但由于Web信息的自身特点,该技术已经和传统的基于纯文本的信息抽取技术有了很大的不同。目前,大量Web信息被保存在网站的后台数据库中,这些信息在网页上的显示有一些共同的特征,即通常把数据库中的数据插入到网页的一个模板中,其表现形式就是网页的主体部分有多个局部信息块组成,局部信息块有多个数据项构成。这类网页被称为数据密集型(data-rich)网页,由于该类网页富含大量有价值的信息,因此,研究如何对这类网页进行Web信息抽取有重大的意义和实用价值。对于上述数据密集型网页,本文采用基于XML的相关技术来解决Web信息的抽取问题。其解决方案是:首先获得目标网页,并将该HTML文档以文档对象模型DOM为中介,转换为形式上的XML文档,然后根据这类网页的特征,把该网页中信息的布局视为基于行和列的二维表形式,用户根据自身需求,通过与系统交互,系统半自动地生成基于行和相关列的XPath位置路径表达式作为抽取规则,根据抽取规则定位到待抽取的信息,从而实现信息的准确抽取,抽取的结果用XML来表示。本文开发了一个原型系统,系统能够完成对数据密集型网页和新闻网页的信息抽取,实验表明本文的系统具有一定的实用价值。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 研究意义
  • 1.3 本文研究内容
  • 1.4 论文结构安排
  • 第2章 Web信息抽取概述
  • 2.1 Web信息抽取的发展历史
  • 2.2 Web信息抽取的定义和Web信息的特点
  • 2.3 Web信息抽取技术分析
  • 2.3.1 基于正则表达式的信息抽取
  • 2.3.2 基于自然语言处理的信息抽取
  • 2.3.3 基于本体的信息抽取
  • 2.3.4 基于包装器归纳的信息抽取
  • 2.3.5 基于HTML结构的信息抽取
  • 2.3.6 基于Web查询的信息抽取
  • 2.4 本章小结
  • 第3章 基于XML技术的Web信息抽取
  • 3.1 概述
  • 3.1.1 问题的提出
  • 3.1.2 网页的格式及XML技术的优势
  • 3.2 Web信息抽取流程
  • 3.3 相关技术介绍
  • 3.3.1 DOM模型
  • 3.3.2 XPath
  • 第四章 基于XML技术的Web信息抽取的实现
  • 4.1 Web文档的预处理
  • 4.1.1 将HTML文档解析为DOM模型
  • 4.1.2 将HTML文档转换为形式上的XML文档
  • 4.2 抽取规则
  • 4.2.1 抽取规则的设计
  • 4.2.2 抽取规则的生成
  • 4.3 信息抽取
  • 4.4 附加语义
  • 4.5 抽取规则的优化
  • 4.5.1 利用标记属性进行优化
  • 4.5.2 利用标记之间的数量关系进行优化
  • 4.5.3 对新闻信息抽取规则进行优化
  • 第五章 原型系统和实验
  • 5.1 原型系统的介绍
  • 5.1.1 开发平台和工具
  • 5.1.2 操作界面和功能介绍
  • 5.2 信息抽取的评价标准
  • 5.3 实验结果及分析
  • 结论
  • 本文总结
  • 下一步工作
  • 致谢
  • 参考文献
  • 攻读硕士学位期间发表的论文
  • 相关论文文献

    • [1].信息抽取技术在军事标图系统中的应用[J]. 电子科技 2013(12)
    • [2].技术检测中的信息抽取技术的应用分析[J]. 价值工程 2014(21)
    • [3].信息抽取技术在情报学中的应用分析[J]. 情报理论与实践 2008(05)
    • [4].信息抽取技术在地方社科院网站建设中的应用[J]. 科技资讯 2015(13)
    • [5].信息抽取技术探析[J]. 通化师范学院学报 2008(04)
    • [6].信息抽取技术综述[J]. 福建电脑 2013(05)
    • [7].信息抽取技术及其在数字图书馆中的应用前景[J]. 中国科技资源导刊 2008(02)
    • [8].基于信息抽取技术的中大布市导购助手的设计与实现[J]. 广东轻工职业技术学院学报 2015(03)
    • [9].从ACE会议看信息抽取技术的发展趋势[J]. 现代图书情报技术 2008(03)
    • [10].信息抽取技术研究与探讨[J]. 福建电脑 2010(04)
    • [11].基于本体的信息抽取技术研究[J]. 科技信息(学术研究) 2008(36)
    • [12].基于油田领域本体的信息抽取技术研究[J]. 计算机技术与发展 2015(07)
    • [13].Web信息抽取技术研究[J]. 科技信息 2013(06)
    • [14].基于GATE框架的中文信息抽取技术的研究[J]. 电脑知识与技术 2009(24)
    • [15].藏药药理命名实体识别[J]. 医学信息学杂志 2020(04)
    • [16].中文网页信息抽取技术及分类算法研究[J]. 山东理工大学学报(自然科学版) 2011(03)
    • [17].基于Ontology的信息抽取技术方法分析[J]. 情报理论与实践 2009(02)
    • [18].基于本体的网页数据抽取技术的探讨[J]. 中国多媒体与网络教学学报(上旬刊) 2020(07)
    • [19].基于Web的信息抽取技术探讨[J]. 中国科技信息 2013(04)
    • [20].Web信息抽取技术简述[J]. 河南科技 2013(19)
    • [21].Web信息抽取系统研究综述[J]. 科技创新导报 2010(34)
    • [22].基于Web信息抽取技术的企业情报分析系统的研究[J]. 数字技术与应用 2016(02)
    • [23].基于GATE的油田信息抽取技术研究[J]. 计算机与数字工程 2014(07)
    • [24].WEB就业信息抽取技术研究[J]. 电脑知识与技术 2013(10)
    • [25].基于自动生成模板的Web信息抽取技术[J]. 网络安全技术与应用 2016(09)
    • [26].中医药领域信息抽取技术的研究与应用[J]. 山东科学 2011(06)
    • [27].基于网页结构的WEB信息抽取系统设计[J]. 计算机光盘软件与应用 2012(06)
    • [28].基于DTA的信息抽取技术研究[J]. 计算机应用与软件 2009(12)
    • [29].Web信息抽取技术综述[J]. 计算机应用研究 2010(12)
    • [30].基于VIPS的职位信息抽取技术研究[J]. 软件导刊 2015(09)

    标签:;  

    基于Web的信息抽取技术研究
    下载Doc文档

    猜你喜欢