论文摘要
随着互联网的快速发展和普及,人们越来越依赖于网络获取信息。作为海量的信息来源,Web可以看成是一个巨大的数据库,包含着各种各样有价值的信息。基于Web的信息抽取技术就是研究如何从这些Web源中抽取出用户感兴趣的信息,并把这些抽取出的信息表示成更具有语义,更为结构化的形式,以便加以利用。该技术起源于信息抽取技术,但由于Web信息的自身特点,该技术已经和传统的基于纯文本的信息抽取技术有了很大的不同。目前,大量Web信息被保存在网站的后台数据库中,这些信息在网页上的显示有一些共同的特征,即通常把数据库中的数据插入到网页的一个模板中,其表现形式就是网页的主体部分有多个局部信息块组成,局部信息块有多个数据项构成。这类网页被称为数据密集型(data-rich)网页,由于该类网页富含大量有价值的信息,因此,研究如何对这类网页进行Web信息抽取有重大的意义和实用价值。对于上述数据密集型网页,本文采用基于XML的相关技术来解决Web信息的抽取问题。其解决方案是:首先获得目标网页,并将该HTML文档以文档对象模型DOM为中介,转换为形式上的XML文档,然后根据这类网页的特征,把该网页中信息的布局视为基于行和列的二维表形式,用户根据自身需求,通过与系统交互,系统半自动地生成基于行和相关列的XPath位置路径表达式作为抽取规则,根据抽取规则定位到待抽取的信息,从而实现信息的准确抽取,抽取的结果用XML来表示。本文开发了一个原型系统,系统能够完成对数据密集型网页和新闻网页的信息抽取,实验表明本文的系统具有一定的实用价值。
论文目录
相关论文文献
- [1].信息抽取技术在军事标图系统中的应用[J]. 电子科技 2013(12)
- [2].技术检测中的信息抽取技术的应用分析[J]. 价值工程 2014(21)
- [3].信息抽取技术在情报学中的应用分析[J]. 情报理论与实践 2008(05)
- [4].信息抽取技术在地方社科院网站建设中的应用[J]. 科技资讯 2015(13)
- [5].信息抽取技术探析[J]. 通化师范学院学报 2008(04)
- [6].信息抽取技术综述[J]. 福建电脑 2013(05)
- [7].信息抽取技术及其在数字图书馆中的应用前景[J]. 中国科技资源导刊 2008(02)
- [8].基于信息抽取技术的中大布市导购助手的设计与实现[J]. 广东轻工职业技术学院学报 2015(03)
- [9].从ACE会议看信息抽取技术的发展趋势[J]. 现代图书情报技术 2008(03)
- [10].信息抽取技术研究与探讨[J]. 福建电脑 2010(04)
- [11].基于本体的信息抽取技术研究[J]. 科技信息(学术研究) 2008(36)
- [12].基于油田领域本体的信息抽取技术研究[J]. 计算机技术与发展 2015(07)
- [13].Web信息抽取技术研究[J]. 科技信息 2013(06)
- [14].基于GATE框架的中文信息抽取技术的研究[J]. 电脑知识与技术 2009(24)
- [15].藏药药理命名实体识别[J]. 医学信息学杂志 2020(04)
- [16].中文网页信息抽取技术及分类算法研究[J]. 山东理工大学学报(自然科学版) 2011(03)
- [17].基于Ontology的信息抽取技术方法分析[J]. 情报理论与实践 2009(02)
- [18].基于本体的网页数据抽取技术的探讨[J]. 中国多媒体与网络教学学报(上旬刊) 2020(07)
- [19].基于Web的信息抽取技术探讨[J]. 中国科技信息 2013(04)
- [20].Web信息抽取技术简述[J]. 河南科技 2013(19)
- [21].Web信息抽取系统研究综述[J]. 科技创新导报 2010(34)
- [22].基于Web信息抽取技术的企业情报分析系统的研究[J]. 数字技术与应用 2016(02)
- [23].基于GATE的油田信息抽取技术研究[J]. 计算机与数字工程 2014(07)
- [24].WEB就业信息抽取技术研究[J]. 电脑知识与技术 2013(10)
- [25].基于自动生成模板的Web信息抽取技术[J]. 网络安全技术与应用 2016(09)
- [26].中医药领域信息抽取技术的研究与应用[J]. 山东科学 2011(06)
- [27].基于网页结构的WEB信息抽取系统设计[J]. 计算机光盘软件与应用 2012(06)
- [28].基于DTA的信息抽取技术研究[J]. 计算机应用与软件 2009(12)
- [29].Web信息抽取技术综述[J]. 计算机应用研究 2010(12)
- [30].基于VIPS的职位信息抽取技术研究[J]. 软件导刊 2015(09)
标签:信息抽取论文;