论文摘要
在全球成为“信息村”的今天,人们对于信息的需求越来越多的同时,怎样才能快速、准确地获得需要的信息就成为了研究的重点,作为重要信息源之一的因特网,同样面临着如何从海量页面中抽取出用户需要的信息的问题。而且据统计因特网上约80%的内容存在于看不见的因特网中(Hidden Web),即那些网上数据库系统。现有的搜索引擎不能抓取到这些网页的数据,所以需要一种工具从这样的网页中搜集数据,并将抽取出来的数据结构化、规范化的信息处理,Web信息抽取技术因此产生并发展起来。本文通过对现有的Web信息抽取方法的学习研究,提出了两种半自动化的方法,分别是:基于规则的Web信息抽取和基于时间频率加权DOM的Web信息抽取。其中第一种方法主要利用正则表达式对字符串的查找、替换等功能实现对常见新闻站点的HTML文档格式进行匹配,并通过DOM树生成算法生成DOM树,经过用户标记得到抽取规则,这种方法在时间上有良好的效率。第二种方法是在现有DOM信息抽取方法上,将待抽取页面文档转化为DOM树型结构,然后对DOM树进行时间、频率加权得到TFW-DOM树,其中时间相关属性的值是通过抽取时间计算公式计算得到,频率属性的值则由主调用模块反馈而来。该方法将抽取时间考虑到抽取过程中,满足多级管理层对时间实时性要求不一的情况,也很适用于程序开发人员在数据调用方面。
论文目录
相关论文文献
- [1].信息抽取技术在军事标图系统中的应用[J]. 电子科技 2013(12)
- [2].技术检测中的信息抽取技术的应用分析[J]. 价值工程 2014(21)
- [3].信息抽取技术在情报学中的应用分析[J]. 情报理论与实践 2008(05)
- [4].信息抽取技术在地方社科院网站建设中的应用[J]. 科技资讯 2015(13)
- [5].信息抽取技术探析[J]. 通化师范学院学报 2008(04)
- [6].信息抽取技术综述[J]. 福建电脑 2013(05)
- [7].信息抽取技术及其在数字图书馆中的应用前景[J]. 中国科技资源导刊 2008(02)
- [8].基于信息抽取技术的中大布市导购助手的设计与实现[J]. 广东轻工职业技术学院学报 2015(03)
- [9].从ACE会议看信息抽取技术的发展趋势[J]. 现代图书情报技术 2008(03)
- [10].信息抽取技术研究与探讨[J]. 福建电脑 2010(04)
- [11].基于本体的信息抽取技术研究[J]. 科技信息(学术研究) 2008(36)
- [12].基于油田领域本体的信息抽取技术研究[J]. 计算机技术与发展 2015(07)
- [13].Web信息抽取技术研究[J]. 科技信息 2013(06)
- [14].基于GATE框架的中文信息抽取技术的研究[J]. 电脑知识与技术 2009(24)
- [15].藏药药理命名实体识别[J]. 医学信息学杂志 2020(04)
- [16].中文网页信息抽取技术及分类算法研究[J]. 山东理工大学学报(自然科学版) 2011(03)
- [17].基于Ontology的信息抽取技术方法分析[J]. 情报理论与实践 2009(02)
- [18].基于本体的网页数据抽取技术的探讨[J]. 中国多媒体与网络教学学报(上旬刊) 2020(07)
- [19].基于Web的信息抽取技术探讨[J]. 中国科技信息 2013(04)
- [20].Web信息抽取技术简述[J]. 河南科技 2013(19)
- [21].Web信息抽取系统研究综述[J]. 科技创新导报 2010(34)
- [22].基于Web信息抽取技术的企业情报分析系统的研究[J]. 数字技术与应用 2016(02)
- [23].基于GATE的油田信息抽取技术研究[J]. 计算机与数字工程 2014(07)
- [24].WEB就业信息抽取技术研究[J]. 电脑知识与技术 2013(10)
- [25].基于自动生成模板的Web信息抽取技术[J]. 网络安全技术与应用 2016(09)
- [26].中医药领域信息抽取技术的研究与应用[J]. 山东科学 2011(06)
- [27].基于网页结构的WEB信息抽取系统设计[J]. 计算机光盘软件与应用 2012(06)
- [28].基于DTA的信息抽取技术研究[J]. 计算机应用与软件 2009(12)
- [29].Web信息抽取技术综述[J]. 计算机应用研究 2010(12)
- [30].基于VIPS的职位信息抽取技术研究[J]. 软件导刊 2015(09)