论文摘要
随着互联网的迅猛发展,“信息过载”已经成为一个亟待解决的问题。为了使用户准确获取他想要的信息,信息抽取成为必要。从网页中抽取信息的程序称为Wrapper。关键的任务是:Wrapper的构造要尽可能快速,不需要过多人为地参与,并且,构造出的Wrapper要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关。针对Wrapper生成问题,人们提出了各种各样的方法。这些方法的抽取模式语言基本上都是自己定制的,往往很简单、难以描述精确或者复杂的信息抽取模式。尽管通过人为标记的样本可以自动归纳出抽取规则,但这些抽取规则很难达到很高的精度、健壮性和通用性。本文使用标准的XML技术来解决网页信息抽取问题。基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。为了快速的构造抽取规则,我们开发了一个信息抽取平台。由于抽取规则的失效主要源于XPath路径表达式的失效,所以本文还对抽取规则的优化方法作了研究,提出了几种改进的信息定位方法,并且从实际应用的角度,提出几种方法的组合策略,在此基础上可以编写出更为简单、健壮、通用的抽取规则,在实际应用中达到了较高的查准率。
论文目录
相关论文文献
- [1].六月,赠书季[J]. 文苑(经典美文) 2014(06)
- [2].基于数据区域发现的信息抽取规则生成方法[J]. 计算机工程 2009(22)
- [3].基于上下文无关文法的数据抽取规则[J]. 河南城建学院学报 2010(05)
- [4].一种自适应的Web信息抽取规则自动生成方法[J]. 广西师范大学学报(自然科学版) 2010(01)
- [5].基于规则的动物卫生事件舆情信息抽取研究[J]. 计算机应用与软件 2018(09)
- [6].Web信息抽取策略及其实现方法研究[J]. 科技情报开发与经济 2008(23)
- [7].针对学术定义的抽取规则构建方法研究[J]. 情报理论与实践 2011(12)
- [8].基于本体模块的微博信息抽取[J]. 图书馆学研究 2013(13)
- [9].基于SVM的Web信息抽取研究[J]. 黑龙江科技信息 2013(18)
- [10].一种基于XQuery的优化Web信息抽取方法[J]. 计算机应用 2008(01)
- [11].国际合作项目推荐[J]. 电脑与电信 2014(04)
- [12].基于XML技术的粮食检索系统设计[J]. 信息与电脑(理论版) 2010(10)
- [13].基于XML和DOM技术的Web信息抽取模型[J]. 大连交通大学学报 2013(03)
- [14].基于DOM树的可适应性Web信息抽取[J]. 计算机科学 2009(07)
- [15].中石油评审自动化专家抽取系统实例[J]. 中国招标 2018(24)
- [16].影评情感分析知识图谱构建研究[J]. 计算机仿真 2020(08)
- [17].一种通用的多数据库间数据抽取方法及应用[J]. 北京交通大学学报 2008(04)
- [18].基于知识元的学术论文内容创新性智能化评价研究[J]. 图书情报工作 2020(01)
- [19].基于WEB信息抽取的主动服务技术研究[J]. 计算机系统应用 2008(01)
- [20].基于汉英双语语料的语义精准抽取系统设计[J]. 现代电子技术 2020(10)
- [21].信息抽取与中医药文献资源利用[J]. 电脑知识与技术 2017(22)
- [22].Web信息抽取系统的设计[J]. 微型电脑应用 2013(03)
- [23].Web信息抽取和展现系统的设计与实现[J]. 电力信息化 2012(02)
- [24].基于XML技术的WEB信息收集方法研究[J]. 电子技术与软件工程 2015(03)
- [25].Web页面细粒度数据抽取方法研究[J]. 计算机工程与设计 2014(02)
- [26].融合核心句与依存关系的评价搭配抽取[J]. 计算机技术与发展 2014(01)
- [27].航班信息抽取规则的自动生成技术[J]. 计算机工程 2011(06)
- [28].用规则抽取句子中事件信息[J]. 小型微型计算机系统 2011(11)
- [29].神经网络规则抽取评估方法[J]. 计算机应用 2008(S2)
- [30].Web信息抽取系统分类方法研究[J]. 内蒙古农业大学学报(自然科学版) 2012(04)
标签:信息抽取论文;