Deep Web环境下数据抽取及模式识别的研究

Deep Web环境下数据抽取及模式识别的研究

论文摘要

Deep Web是指那些存储在Web数据库里、不能通过超链接访问而需要采用动态网页技术访问的资源集合。随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段,能够自动地获取蕴含在Deep Web中丰富的数据资源并对其进行大规模集成显得尤为重要。现有的Deep Web数据源结构化数据抽取方法主要以数据为重点,对结构的重视还不够,很多方法抽取的结果还是无结构或水平结构的。其次,Deep Web数据源往往会发生变化的,比如数据的过期失效、模式信息的改变、页面结构的调整,这些变化都影响原有抽取方法的准确率,带来大量维护问题。此外,目前还没有成熟的方法,将各个数据源中获取的数据整合。可见,这些问题都给Deep Web数据源中结构化数据的抽取带来了困难,本文针对这些问题做了深入研究,并提出了可行的解决方案。本文提出了一套完整的数据抽取及模式识别解决方案,主要内容包括:提出了一种有效的DOM模型下基于聚类的数据抽取方法,结合DOM结构信息与可视化信息分析结果页面,并采用基于聚类方法实现响应页面中的数据抽取,在面对结构复杂的数据和大量的噪声节点时,仍能够完整、准确的获得数据信息。提出了一种基于标签的结果模式抽取方法,通过一种两阶段式的标签获取方法,同步标签获取,对以往的标签获取方法做了很大的改进,一定程度的提高了获取标签的数量与准确性。此外,采用了基于LCS的模式标签匹配技术,提高了模式与标签之间的匹配精度。提出了一种简单有效的包装器模型,提高了数据抽取的时间效率。此外,还对包装器的集成问题进行了深入的研究,解决了由Deep Web数据源更新造成的包装器维护问题。经过实验验证,本文提出的数据抽取方法能够真正有效的抽取响应页面中的有用信息,并且在准确率和召回率方面都要优于现有方法,使得Deep Web中丰富的高质量结构化信息得到充分利用,具有很高的应用价值,可以广泛的应用到各类Deep Web信息集成中。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 引言
  • 1.1 课题背景
  • 1.2 国内外研究现状
  • 1.3 本文研究的内容
  • 1.4 本文研究思路及组织结构
  • 第2章 相关概念与技术
  • 2.1 Web相关技术
  • 2.1.1 HTML
  • 2.1.2 XML
  • 2.1.3 DOM
  • 2.1.4 Javascript
  • 2.2 Web2.0
  • 2.3 搜索引擎
  • 2.4 本章小结
  • 第3章 DWSEARCH中预处理子系统的设计
  • 3.1 基本需求
  • 3.2 DWSearch体系结构
  • 3.3 预处理子系统的设计
  • 3.4 本章小结
  • 第4章 DOM模型下基于聚类的数据抽取
  • 4.1 建立DOM模型
  • 4.2 基于聚类的识别数据区节点算法
  • 4.3 识别数据记录
  • 4.4 比对分析
  • 4.5 属性分离
  • 4.6 本章小结
  • 第5章 基于标签的结果模式识别及包装器的构造
  • 5.1 建立数据源实例库
  • 5.2 本地标签获取
  • 5.3 全局标签获取
  • 5.4 模式标签字典
  • 5.5 基于LCS的模式标签匹配
  • 5.6 包装器的生成
  • 5.6.1 包装器模型
  • 5.6.2 包装器的集成
  • 5.7 本章小结
  • 第6章 实验与分析
  • 6.1 实验设置
  • 6.2 实验结果及分析
  • 6.3 本章小结
  • 第7章 结论
  • 7.1 本文的主要贡献与结论
  • 7.2 进一步的工作
  • 参考文献
  • 致谢
  • 攻硕期间参加的项目及发表的论文
  • 相关论文文献

    • [1].数字化校园建设中数据抽取技术研究[J]. 河南财政税务高等专科学校学报 2015(06)
    • [2].船舶监控系统运行数据抽取与分析方案设计[J]. 船海工程 2020(03)
    • [3].数据抽取在征信系统中的应用[J]. 科技创新导报 2009(01)
    • [4].数据抽取在征信系统中的应用[J]. 科技创新导报 2009(02)
    • [5].基于可变时间窗口的增量数据抽取模型[J]. 计算机科学 2018(11)
    • [6].数据抽取及交换工具的设计与实现[J]. 软件 2015(08)
    • [7].一种新型增量数据抽取方法的研究[J]. 黑龙江科技信息 2016(36)
    • [8].一种大数据时代海量数据抽取的开发模型研究[J]. 计算机应用研究 2013(11)
    • [9].数据挖掘技术在数据抽取中的研究与应用[J]. 内蒙古师范大学学报(自然科学汉文版) 2008(04)
    • [10].决策支持系统的数据抽取方法的研究[J]. 无线互联科技 2011(03)
    • [11].论工商行业数据中心建设中数据抽取的技术实现方式[J]. 计算机与现代化 2009(08)
    • [12].临床科研数据抽取研究[J]. 医学信息学杂志 2020(07)
    • [13].人力资源管理系统中数据抽取模块的实现[J]. 电脑知识与技术 2008(05)
    • [14].数据抽取中数据预处理[J]. 电子技术与软件工程 2014(07)
    • [15].基于数据抽取的决策支持系统研究与实现[J]. 数字技术与应用 2018(03)
    • [16].基于服务专业化的数据抽取方法研究[J]. 河南大学学报(自然科学版) 2012(06)
    • [17].ETL数据抽取研究综述[J]. 软件导刊 2010(10)
    • [18].供电管线到综合管线的数据抽取语义映射机制[J]. 江苏城市规划 2015(11)
    • [19].保险数据仓库数据抽取的设计与实现[J]. 中国金融电脑 2011(04)
    • [20].基于KPS的HTML数据抽取[J]. 网络安全技术与应用 2009(03)
    • [21].地震叠后数据抽取中关键问题探讨[J]. 胜利油田职工大学学报 2008(06)
    • [22].Web数据抽取技术的研究和探讨[J]. 电子世界 2015(13)
    • [23].基于XML的无监督数据抽取研究[J]. 黑龙江科技信息 2013(17)
    • [24].Deep Web数据抽取的分析与研究[J]. 南开大学学报(自然科学版) 2012(03)
    • [25].基于WEB的数据抽取及应用实例[J]. 中国新技术新产品 2009(19)
    • [26].银行CRM系统数据抽取的研究[J]. 计算机应用与软件 2008(03)
    • [27].面向领域的Web数据抽取与集成[J]. 计算机科学 2013(S1)
    • [28].基于关键属性比对的增量数据抽取方法[J]. 计算机工程与应用 2012(04)
    • [29].基于语义支持的Deep Web数据抽取[J]. 计算机科学 2010(03)
    • [30].Web数据抽取技术研究初探[J]. 电脑知识与技术 2009(35)

    标签:;  ;  ;  ;  

    Deep Web环境下数据抽取及模式识别的研究
    下载Doc文档

    猜你喜欢