基于DOM的Web信息抽取技术的研究与实现

基于DOM的Web信息抽取技术的研究与实现

论文摘要

当前,互联网已成为全球信息传播与共享的重要渠道,但随着其数据量的爆炸性增长,用户查找自己所需的信息却变得越来越困难。在这种情况下,如何从浩繁的Web数据中抽取出有用的信息就成为了众多研究工作者希望解决的问题。近年来国内外已涌现了多种Web信息抽取方法,这些方法各有侧重地解决了信息抽取中所面临的问题。虽然在总体上取得了良好的效果,但仍然存在着对样本需求过多,工作量大的缺陷。针对现有方法的不足,提出一种半自动化Web信息抽取方法,主要内容包括以下几个方面:首先,在相似页面的获取上,采用基于URL结构比较和简单树匹配算法相结合的方式来进行。即对爬虫程序在网站内获取的超链接采用URL比较法进行先过滤,去掉不满足匹配条件的网页。然后使用简单树匹配法对剩下的网页进行后过滤,以此来得到最终的相似页面。这样在网页的相似性度量上,不仅考虑了URL,还考虑了网页的实际结构,弥补了单纯根据URL获取相似页面的不足。其次,提出一种基于DOM的Web信息抽取方法,通过对用户标记项与测试网页中数据项进行比较来获取有效信息。即先将样本网页进行解析,提取其中感兴趣数据项的特征。当输入测试网页时,通过与其中所有的数据项进行特征比较来获得抽取结果。采用这种方式进行信息抽取克服了传统基于DOM的信息抽取方法对网页结构变化适应性不强的缺点。第三,针对多记录网页特别是记录数目不固定的网页进行信息抽取时,提出一种试探策略。在计算出用户标记记录与测试网页中记录的相似度矩阵后,通过矩阵的变化情况来确定记录间的分界点,进而获得所有记录,降低了抽取难度。最后,根据以上分析对基于DOM的Web信息抽取原型系统进行了设计与实现。系统为用户提供可视化操作界面,便于使用。通过不同功能模块的结合满足了抽取任务的要求。对一些数据源的实验结果表明,在单样本网页训练情况下,所提出方法可以有效抽取出网页中的数据。即使网页中存在缺失项,系统依然具有良好的表现。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 选题背景和研究意义
  • 1.2 国内外现状综述
  • 1.3 论文研究内容与结构安排
  • 2 Web信息抽取
  • 2.1 Web信息抽取概述
  • 2.2 Web信息抽取分类
  • 2.3 Web信息抽取的应用
  • 2.4 信息抽取系统的评价指标
  • 2.5 本章小结
  • 3 信息抽取相关技术
  • 3.1 HTML
  • 3.2 XML
  • 3.3 WAP与 WML
  • 3.4 XPath
  • 3.5 正则表达式
  • 3.6 本章小结
  • 4 基于DOM的 Web信息抽取方法
  • 4.1 获取相似页面
  • 4.1.1 相似页面的作用
  • 4.1.2 获取 URL
  • 4.1.3 基于 URL结构比较法
  • 4.1.4 简单树匹配比较法
  • 4.2 总体抽取过程描述
  • 4.3 HTML文档的预处理
  • 4.3.1 清洗 HTML文档
  • 4.3.2 XML文档的解析
  • 4.4 采用特征比较法进行信息抽取
  • 4.4.1 特征的选择与提取
  • 4.4.2 相似度计算
  • 4.5 针对多记录网页的信息抽取
  • 4.6 实验结果与分析
  • 4.7 本章小结
  • 5 信息抽取系统的设计与实现
  • 5.1 设计目标
  • 5.2 系统总体框架
  • 5.2.1 功能模块设计
  • 5.2.2 功能模块介绍
  • 5.3 系统的实现
  • 5.3.1 工作总览
  • 5.3.2 系统操作界面
  • 5.3.3 系统评价策略
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].信息抽取技术在军事标图系统中的应用[J]. 电子科技 2013(12)
    • [2].技术检测中的信息抽取技术的应用分析[J]. 价值工程 2014(21)
    • [3].信息抽取技术在情报学中的应用分析[J]. 情报理论与实践 2008(05)
    • [4].信息抽取技术在地方社科院网站建设中的应用[J]. 科技资讯 2015(13)
    • [5].信息抽取技术探析[J]. 通化师范学院学报 2008(04)
    • [6].信息抽取技术综述[J]. 福建电脑 2013(05)
    • [7].信息抽取技术及其在数字图书馆中的应用前景[J]. 中国科技资源导刊 2008(02)
    • [8].基于信息抽取技术的中大布市导购助手的设计与实现[J]. 广东轻工职业技术学院学报 2015(03)
    • [9].从ACE会议看信息抽取技术的发展趋势[J]. 现代图书情报技术 2008(03)
    • [10].信息抽取技术研究与探讨[J]. 福建电脑 2010(04)
    • [11].基于本体的信息抽取技术研究[J]. 科技信息(学术研究) 2008(36)
    • [12].基于油田领域本体的信息抽取技术研究[J]. 计算机技术与发展 2015(07)
    • [13].Web信息抽取技术研究[J]. 科技信息 2013(06)
    • [14].基于GATE框架的中文信息抽取技术的研究[J]. 电脑知识与技术 2009(24)
    • [15].藏药药理命名实体识别[J]. 医学信息学杂志 2020(04)
    • [16].中文网页信息抽取技术及分类算法研究[J]. 山东理工大学学报(自然科学版) 2011(03)
    • [17].基于Ontology的信息抽取技术方法分析[J]. 情报理论与实践 2009(02)
    • [18].基于本体的网页数据抽取技术的探讨[J]. 中国多媒体与网络教学学报(上旬刊) 2020(07)
    • [19].基于Web的信息抽取技术探讨[J]. 中国科技信息 2013(04)
    • [20].Web信息抽取技术简述[J]. 河南科技 2013(19)
    • [21].Web信息抽取系统研究综述[J]. 科技创新导报 2010(34)
    • [22].基于Web信息抽取技术的企业情报分析系统的研究[J]. 数字技术与应用 2016(02)
    • [23].基于GATE的油田信息抽取技术研究[J]. 计算机与数字工程 2014(07)
    • [24].WEB就业信息抽取技术研究[J]. 电脑知识与技术 2013(10)
    • [25].基于自动生成模板的Web信息抽取技术[J]. 网络安全技术与应用 2016(09)
    • [26].中医药领域信息抽取技术的研究与应用[J]. 山东科学 2011(06)
    • [27].基于网页结构的WEB信息抽取系统设计[J]. 计算机光盘软件与应用 2012(06)
    • [28].基于DTA的信息抽取技术研究[J]. 计算机应用与软件 2009(12)
    • [29].Web信息抽取技术综述[J]. 计算机应用研究 2010(12)
    • [30].基于VIPS的职位信息抽取技术研究[J]. 软件导刊 2015(09)

    标签:;  ;  ;  

    基于DOM的Web信息抽取技术的研究与实现
    下载Doc文档

    猜你喜欢