Web信息抽取技术的研究与应用

Web信息抽取技术的研究与应用

论文摘要

在全球成为“信息村”的今天,人们对于信息的需求越来越多的同时,怎样才能快速、准确地获得需要的信息就成为了研究的重点,作为重要信息源之一的因特网,同样面临着如何从海量页面中抽取出用户需要的信息的问题。而且据统计因特网上约80%的内容存在于看不见的因特网中(Hidden Web),即那些网上数据库系统。现有的搜索引擎不能抓取到这些网页的数据,所以需要一种工具从这样的网页中搜集数据,并将抽取出来的数据结构化、规范化的信息处理,Web信息抽取技术因此产生并发展起来。本文通过对现有的Web信息抽取方法的学习研究,提出了两种半自动化的方法,分别是:基于规则的Web信息抽取和基于时间频率加权DOM的Web信息抽取。其中第一种方法主要利用正则表达式对字符串的查找、替换等功能实现对常见新闻站点的HTML文档格式进行匹配,并通过DOM树生成算法生成DOM树,经过用户标记得到抽取规则,这种方法在时间上有良好的效率。第二种方法是在现有DOM信息抽取方法上,将待抽取页面文档转化为DOM树型结构,然后对DOM树进行时间、频率加权得到TFW-DOM树,其中时间相关属性的值是通过抽取时间计算公式计算得到,频率属性的值则由主调用模块反馈而来。该方法将抽取时间考虑到抽取过程中,满足多级管理层对时间实时性要求不一的情况,也很适用于程序开发人员在数据调用方面。

论文目录

  • 摘要
  • ABSTRACT
  • 创新点摘要
  • 前言
  • 第一章 绪论
  • 1.1 信息抽取技术概述
  • 1.1.1 信息抽取发展历史及研究现状
  • 1.1.2 信息抽取系统的两大设计方法
  • 1.1.3 信息抽取文本的分类
  • 1.1.4 信息抽取技术的评价指标
  • 1.2 信息抽取方法分类
  • 1.2.1 按照自动化程度分类
  • 1.2.2 按照抽取技术路线的分类
  • 1.3 WEB信息抽取技术研究
  • 1.4 信息抽取的发展趋势
  • 1.5 本文的研究内容
  • 第二章 抽取规则描述
  • 2.1 抽取规则
  • 2.1.1 抽取规则定义
  • 2.1.2 典型抽取工具的规则描述
  • 2.2 正则表达式的概述
  • 2.2.1 正则表达式的定义
  • 2.2.2 正则表达式的测试
  • 2.2.3 页面清理
  • 2.3 小结
  • 第三章 基于规则的WEB信息抽取
  • 3.1 WEB信息抽取相关技术
  • 3.2 基于规则的WEB信息抽取
  • 3.2.1 系统流程
  • 3.2.2 DOM树生成算法
  • 3.2.3 抽取规则生成及抽取执行
  • 3.2.4 数据处理模块
  • 3.3 实验结果
  • 3.4 小结
  • 第四章 基于时间频率加权DOM的WEB信息抽取
  • 4.1 相关定义及技术
  • 4.1.1 基本定义
  • 4.1.2 HTML解析器
  • 4.2 基于TFW-DOM的WEB信息抽取概述
  • 4.2.1 DOM树的遍历算法
  • 4.2.2 页面清理模块
  • 4.2.3 DOM树加权
  • 4.2.4 计算抽取时间算法
  • 4.3 实验结果
  • 4.4 小结
  • 结论
  • 参考文献
  • 发表文章目录
  • 致谢
  • 详细摘要
  • 相关论文文献

    • [1].信息抽取技术在军事标图系统中的应用[J]. 电子科技 2013(12)
    • [2].技术检测中的信息抽取技术的应用分析[J]. 价值工程 2014(21)
    • [3].信息抽取技术在情报学中的应用分析[J]. 情报理论与实践 2008(05)
    • [4].信息抽取技术在地方社科院网站建设中的应用[J]. 科技资讯 2015(13)
    • [5].信息抽取技术探析[J]. 通化师范学院学报 2008(04)
    • [6].信息抽取技术综述[J]. 福建电脑 2013(05)
    • [7].信息抽取技术及其在数字图书馆中的应用前景[J]. 中国科技资源导刊 2008(02)
    • [8].基于信息抽取技术的中大布市导购助手的设计与实现[J]. 广东轻工职业技术学院学报 2015(03)
    • [9].从ACE会议看信息抽取技术的发展趋势[J]. 现代图书情报技术 2008(03)
    • [10].信息抽取技术研究与探讨[J]. 福建电脑 2010(04)
    • [11].基于本体的信息抽取技术研究[J]. 科技信息(学术研究) 2008(36)
    • [12].基于油田领域本体的信息抽取技术研究[J]. 计算机技术与发展 2015(07)
    • [13].Web信息抽取技术研究[J]. 科技信息 2013(06)
    • [14].基于GATE框架的中文信息抽取技术的研究[J]. 电脑知识与技术 2009(24)
    • [15].藏药药理命名实体识别[J]. 医学信息学杂志 2020(04)
    • [16].中文网页信息抽取技术及分类算法研究[J]. 山东理工大学学报(自然科学版) 2011(03)
    • [17].基于Ontology的信息抽取技术方法分析[J]. 情报理论与实践 2009(02)
    • [18].基于本体的网页数据抽取技术的探讨[J]. 中国多媒体与网络教学学报(上旬刊) 2020(07)
    • [19].基于Web的信息抽取技术探讨[J]. 中国科技信息 2013(04)
    • [20].Web信息抽取技术简述[J]. 河南科技 2013(19)
    • [21].Web信息抽取系统研究综述[J]. 科技创新导报 2010(34)
    • [22].基于Web信息抽取技术的企业情报分析系统的研究[J]. 数字技术与应用 2016(02)
    • [23].基于GATE的油田信息抽取技术研究[J]. 计算机与数字工程 2014(07)
    • [24].WEB就业信息抽取技术研究[J]. 电脑知识与技术 2013(10)
    • [25].基于自动生成模板的Web信息抽取技术[J]. 网络安全技术与应用 2016(09)
    • [26].中医药领域信息抽取技术的研究与应用[J]. 山东科学 2011(06)
    • [27].基于网页结构的WEB信息抽取系统设计[J]. 计算机光盘软件与应用 2012(06)
    • [28].基于DTA的信息抽取技术研究[J]. 计算机应用与软件 2009(12)
    • [29].Web信息抽取技术综述[J]. 计算机应用研究 2010(12)
    • [30].基于VIPS的职位信息抽取技术研究[J]. 软件导刊 2015(09)

    标签:;  ;  ;  ;  

    Web信息抽取技术的研究与应用
    下载Doc文档

    猜你喜欢