论文摘要
随着互联网的迅猛发展,“信息过载”已经成为一个亟待解决的问题。为了使用户准确获取他想要的信息,信息抽取成为必要。从网页中抽取信息的程序称为Wrapper,关键的任务是:Wrapper的构造要尽可能快速,不需要过多人为地参与,并且,构造出的Wrapper要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关。针对Wrapper生成问题,人们提出了各种各样的方法。这些方法的抽取模式语言基本上都是自己定制的,往往很简单、难以描述精确或者复杂的信息抽取模式。尽管通过人为标记的样本可以自动归纳出抽取规则,但这些抽取规则很难达到很高的精度、健壮性和通用性。本文使用标准的XML技术来解决网页信息抽取问题,基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。为了快速的构造抽取规则,我们开发了一个信息抽取平台。除了手工编写抽取规则外,本文提出了新颖的方法自动归纳网页模板和记录模板,以及相应的抽取规则。网页模板可以用来抽取网页的主要内容,这对很多基于网页内容的工作很重要,比如网页信息检索,网页聚类与分类等等。记录模板可以用来抽取网页中的列表数据。另外,由于使用的是XSLT,抽取模式可以很容易理解和修改。最后,我们还开发了多网页信息抽取框架。实际的应用经常需要对多个网页进行抽取,基于本文所设计开发的Web信息抽取平台,可以很快的构建出健壮和通用的网页信息抽取Wrapper。
论文目录
相关论文文献
- [1].基于框架的WEB前端设计[J]. 数码世界 2020(01)
- [2].基于web前端的校内信息发布系统的设计与实现[J]. 数码世界 2020(02)
- [3].基于Web的多媒体课件的优势及应注意的问题[J]. 中国校外教育(理论) 2008(07)
- [4].基于Web的教学管理信息系统的开发与实践研究[J]. 求知导刊 2016(08)
- [5].浅谈基于Web的教学管理信息系统的研究与设计[J]. 电脑迷 2016(07)
- [6].基于Web的教学管理信息系统的开发与应用[J]. 电脑迷 2017(08)
- [7].基于Web的计算机辅助教学系统的设计与实现探讨[J]. 明日风尚 2018(19)
- [8].HTML5离线应用开发技术研究[J]. 数码世界 2017(05)
- [9].Web前端开发技术以及优化研究[J]. 知音励志 2017(05)
- [10].浅谈Web前端网页开发的应用和前景——以web 1.0到web 2.0为例[J]. 青春岁月 2017(07)
- [11].基于ARM的车辆速度监控系统设计研究[J]. 数码世界 2017(06)
- [12].基于Web的中小型企业ERP信息集成系统研究[J]. 科学中国人 2017(21)
- [13].基于Web的在线网络教学平台的设计分析[J]. 科学中国人 2017(21)
- [14].基于Web技术在嵌入式应用系统设计中的应用[J]. 科技致富向导 2014(15)
- [15].一种基于协同过滤的Web挖掘推荐方法[J]. 北京信息科技大学学报(自然科学版) 2013(06)
- [16].基于Web的企业信息管理系统安全方案[J]. 信息与电脑(理论版) 2013(22)
- [17].分布式对象技术及其在Web上的应用探究[J]. 哈尔滨职业技术学院学报 2013(06)
- [18].一类基于嵌入式动态Web的网络化监控系统(英文)[J]. 机床与液压 2013(24)
- [19].基于Web标准的校园活动预约平台的设计与实现[J]. 长沙民政职业技术学院学报 2013(04)
- [20].基于Web浏览的虚拟校园的研究与实践[J]. 网友世界 2012(01)
- [21].基于Web的智能教学系统的研究[J]. 中国科教创新导刊 2009(16)
- [22].基于Web的虚拟实验室的研究和应用[J]. 考试周刊 2010(20)
- [23].基于Web技术的网上考试系统的设计[J]. 考试周刊 2011(77)
- [24].基于Web的人力资源管理系统设计与实现[J]. 电脑编程技巧与维护 2020(10)
- [25].基于Web技术的船舶物流成本估算系统[J]. 舰船科学技术 2020(20)
- [26].移动WEB开发技术在商务网站建设中应用浅析[J]. 营销界 2020(30)
- [27].浅析应急广播适配器中嵌入式Web服务器的架构和搭建方法[J]. 西部广播电视 2020(21)
- [28].Web前端开发技术及其优化策略[J]. 信息通信 2020(10)
- [29].基于网站制作的Web前端开发技术与优化[J]. 数码世界 2020(04)
- [30].Web技术在综合信息管理系统的设计策略探究[J]. 商业故事 2018(13)