导读:本文包含了表单抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:Deep,Web,Surface,Web,查询接口,WordNet
表单抽取论文文献综述
梁浩,左万利,任斐,赫枫龄[1](2009)在《基于本体实例信息的深度网表单属性自动抽取》一文中研究指出Deep Web是隐藏在Surface Web之后的信息提供者,而且在Deep Web之中还隐藏着更大量的信息.目前,对Deep Web中的信息进行有效的获取的可行方法是通过Deep Web提供的查询接口对其进行访问.自动抽取查询接口中的属性并生成正确的查询条件是提升访问Deep Web能力的有效方法.查询接口中属性之间存在着不同的语义约束关系,如互斥和共存.为了生成有效的查询条件,必须发现并协调关键属性间的语义关系.为了解决些问题,提出一个基于本体技术并充分利用实例信息的表单属性自动抽取方法,在这一方法中使用WordNet来丰富抽取出的关键属性并发现表单中属性间的语义关系.在属性抽取过程中,每个属性被拓展生成一个备选属性集并且以树型数据结构存储,而且备选属性树可以有效的描述属性间的语义关系.在现实领域中的试验证明,这一框架结构可以自动的抽取Deep Web表单属性并有效的生成查询条件.(本文来源于《小型微型计算机系统》期刊2009年05期)
火善栋[2](2009)在《FORM表单反馈网页信息抽取的研究与实现》一文中研究指出实现了以table标记为信息存贮特点的多记录网页信息的自动抽取工作,该抽取方法从网页信息的存贮特点入手,将有用信息定位于表格中,该抽取方法能够在一个网页中自动查找结构相同或相似的记录模式,并自动分析该记录模式的结构特点从而调用相应的抽取模式(XSLT文档)实现对信息的自动抽取。(本文来源于《电脑知识与技术》期刊2009年09期)
张忠[3](2007)在《面向Web表单的信息抽取通用模型》一文中研究指出随着互联网的发展,互联网上的信息量急剧膨胀,但网页中信息表达的格式和风格随意、自由。面对多种的信息表达方式,让计算机去自动识别或分类这些信息就变得十分有意义。为了让计算机能够自动识别获取这些信息,各种信息抽取技术就应运而生。信息抽取技术的关键技术是包装器的生成方法。包装器(Wrapper)的生成方法是当前信息抽取领域的研究热点。然而当前的包装器生成方法设计一般针对某一特定的应用领域(如股票价格信息、工作招聘信息等),这样设计的包装器带有那一特定领域信息的特征,因此其应用都有其局限性。本文提出了一个面向Web表单的信息抽取通用模型,完整的设计和实现了模型的定义方法、训练方法、表达和存储方式及抽取方式。完整的阐述了对象模型和对象要素定义的结构和方法,并提出了一个采用此模型进行信息抽取的通用步骤。该步骤从互联网上获取包含需提取的信息的网页,然后通过网页视觉布局等信息分析得到含有具体内容的Web表单,然后建立待抽取对象的对象定义模型,最后通过该模型从抽取的Web表单中进行特定信息的抽取。在对象模型的定义时采用了专家定义和使用训练库训练两种方法相结合的方法。在最后的系统实验中,实践了使用该模型进行信息抽取的完整步骤,首先定义了两个对象模型(手机和MP3),然后从互联网中抽取了近万个这两种产品的Web表单,最后使用定义的两个模型进行了信息抽取,通过实验显示该模型对表单式的信息有较好的抽取效果。本文主要内容总结为以下几点:1.面向Web表单信息抽取通用模型的设计与实现;2.Web页面中视觉上的主体表单的提取;3.通过定义的对象模型对表单信息进行抽取的步骤和方法。(本文来源于《浙江大学》期刊2007-05-01)
表单抽取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
实现了以table标记为信息存贮特点的多记录网页信息的自动抽取工作,该抽取方法从网页信息的存贮特点入手,将有用信息定位于表格中,该抽取方法能够在一个网页中自动查找结构相同或相似的记录模式,并自动分析该记录模式的结构特点从而调用相应的抽取模式(XSLT文档)实现对信息的自动抽取。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
表单抽取论文参考文献
[1].梁浩,左万利,任斐,赫枫龄.基于本体实例信息的深度网表单属性自动抽取[J].小型微型计算机系统.2009
[2].火善栋.FORM表单反馈网页信息抽取的研究与实现[J].电脑知识与技术.2009
[3].张忠.面向Web表单的信息抽取通用模型[D].浙江大学.2007