基于AJAX的Web信息抽取技术的研究

基于AJAX的Web信息抽取技术的研究

论文摘要

自2004年Web2.0的概念提出之后,Internet的使用方式发生了很大的变化。以前人们主要是通过Internet浏览网站新闻。而出现了Web2.0之后主要是采用交互的方式,用户不只是浏览网站新闻,还可以在网站中交流信息、对话、编辑网站等。如现在很流行的博客、虚拟社区、百科全书等都很注重用户的交互体验。这也是未来Web的技术发展方向。随着Web2.0的广泛应用,信息抽取面临了新的问题:由于异步的JavaScript是AJAX框架网站的构建基础,而传统的Web信息抽取并不能抽取出AJAX框架网站中的信息。这就出现了传统的Web信息抽取对AJAX框架网站无能为力的同时基于AJAX框架网站又不断的涌现。那么就意味着传统的Web信息抽取技术无法抽取出用户感兴趣的有用信息。这个问题引起了学者们的广泛关注,研究基于AJAX的Web信息抽取对互联网领域的技术理论发展和应用有很大的意义。论文介绍了信息抽取的发展、研究现状、信息抽取分类、相关技术及评价指标,对几种传统的信息抽取技术进行一定的介绍,并阐明了基于AJAX的Web信息抽取技术的设计目标和具体设计。论文在传统静态网页信息抽取方法的基础上,进一步提出并实现了基于动态网页的信息抽取。本文在对待抽取的URL页面进行解析之后,通过页面处理对页面中的JavaScript代码进行分析与解析,然后通过DOM构造器重新构建网页DOM树。通过研究与分析最终解决AJAX框架网站中的信息提取及JavaScript异步交互信息抽取的关键技术问题,实现了抽取AJAX框架网站信息的目的。本文在对传统信息抽取技术进行分析的基础上提出了基于AJAX的Web信息抽取技术,并达到了抽取AJAX框架网站信息的目的。对页面分析,页面处理、规则生成等模块之间的相互操作提出了理论支持及技术方法,为AJAX框架网站的信息抽取提供了解决方案并简单的设计了针对AJAX框架的信息抽取系统。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 选题的背景及意义
  • 1.2 Web信息抽取的研究现状及发展
  • 1.3 论文研究内容及组织结构
  • 第2章 Web信息抽取概述
  • 2.1 Web信息抽取原理
  • 2.1.1 传统的信息抽取原理
  • 2.1.2 基于AJAX的动态网页抽取原理
  • 2.2 Web信息抽取分类
  • 2.2.1 人工获取规则处理方式的信息抽取
  • 2.2.2 半自动化学习方式的信息抽取
  • 2.2.3 及其学习与归纳学习方式的信息抽取
  • 2.3 信息抽取系统的评价指标
  • 2.4 本章小结
  • 第3章 基于AJAX的信息抽取系统的设计
  • 3.1 相关概念
  • 3.1.1 AJAX
  • 3.1.2 Web2.0
  • 3.1.3 JavaScript
  • 3.2 传统的信息抽取方式面临的挑战
  • 3.2.1 AJAX资源的不可见性
  • 3.2.2 状态信息的不可定位性
  • 3.3 AJAX面临的挑战
  • 3.4 AJAX信息抽取系统的核心工作
  • 3.5 AJAX信息抽取系统的设计
  • 3.5.1 整体研究思路
  • 3.5.2 整体设计思路
  • 3.5.3 系统工作流程图
  • 3.6 本章小结
  • 第4章 基于AJAX的信息抽取系统的实现
  • 4.1 相关技术
  • 4.1.1 HTML
  • 4.1.2 XML
  • 4.1.3 XPath
  • 4.1.4 XSLT
  • 4.1.5 DOM
  • 4.2 页面获取
  • 4.3 页面处理
  • 4.3.1 动态网页处理引擎的工作原理
  • 4.3.2 动态网页处理引擎工作流程
  • 4.4 抽取规则的学习
  • 4.4.1 获取XPath路径
  • 4.4.2 XSLT描述规则
  • 4.4.3 抽取规则的生成
  • 4.4.4 抽取规则的优化
  • 4.5 信息抽取
  • 4.6 基于DOM的Xpath生成技术
  • 4.6.1 DOM采用JTree显示
  • 4.6.2 基于DOM的XPath生成算法
  • 4.7 本章小结
  • 第5章 实验及分析
  • 5.1 开发平台和工具
  • 5.2 系统工作总览
  • 5.3 用户界面介绍
  • 5.4 抽取实例及分析
  • 5.5 系统评价
  • 5.6 本章小结
  • 第6章 总结及展望
  • 6.1 论文总结
  • 6.2 工作展望
  • 致谢
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 相关论文文献

    • [1].信息抽取技术在军事标图系统中的应用[J]. 电子科技 2013(12)
    • [2].技术检测中的信息抽取技术的应用分析[J]. 价值工程 2014(21)
    • [3].信息抽取技术在情报学中的应用分析[J]. 情报理论与实践 2008(05)
    • [4].信息抽取技术在地方社科院网站建设中的应用[J]. 科技资讯 2015(13)
    • [5].信息抽取技术探析[J]. 通化师范学院学报 2008(04)
    • [6].信息抽取技术综述[J]. 福建电脑 2013(05)
    • [7].信息抽取技术及其在数字图书馆中的应用前景[J]. 中国科技资源导刊 2008(02)
    • [8].基于信息抽取技术的中大布市导购助手的设计与实现[J]. 广东轻工职业技术学院学报 2015(03)
    • [9].从ACE会议看信息抽取技术的发展趋势[J]. 现代图书情报技术 2008(03)
    • [10].信息抽取技术研究与探讨[J]. 福建电脑 2010(04)
    • [11].基于本体的信息抽取技术研究[J]. 科技信息(学术研究) 2008(36)
    • [12].基于油田领域本体的信息抽取技术研究[J]. 计算机技术与发展 2015(07)
    • [13].Web信息抽取技术研究[J]. 科技信息 2013(06)
    • [14].基于GATE框架的中文信息抽取技术的研究[J]. 电脑知识与技术 2009(24)
    • [15].藏药药理命名实体识别[J]. 医学信息学杂志 2020(04)
    • [16].中文网页信息抽取技术及分类算法研究[J]. 山东理工大学学报(自然科学版) 2011(03)
    • [17].基于Ontology的信息抽取技术方法分析[J]. 情报理论与实践 2009(02)
    • [18].基于本体的网页数据抽取技术的探讨[J]. 中国多媒体与网络教学学报(上旬刊) 2020(07)
    • [19].基于Web的信息抽取技术探讨[J]. 中国科技信息 2013(04)
    • [20].Web信息抽取技术简述[J]. 河南科技 2013(19)
    • [21].Web信息抽取系统研究综述[J]. 科技创新导报 2010(34)
    • [22].基于Web信息抽取技术的企业情报分析系统的研究[J]. 数字技术与应用 2016(02)
    • [23].基于GATE的油田信息抽取技术研究[J]. 计算机与数字工程 2014(07)
    • [24].WEB就业信息抽取技术研究[J]. 电脑知识与技术 2013(10)
    • [25].基于自动生成模板的Web信息抽取技术[J]. 网络安全技术与应用 2016(09)
    • [26].中医药领域信息抽取技术的研究与应用[J]. 山东科学 2011(06)
    • [27].基于网页结构的WEB信息抽取系统设计[J]. 计算机光盘软件与应用 2012(06)
    • [28].基于DTA的信息抽取技术研究[J]. 计算机应用与软件 2009(12)
    • [29].Web信息抽取技术综述[J]. 计算机应用研究 2010(12)
    • [30].基于VIPS的职位信息抽取技术研究[J]. 软件导刊 2015(09)

    标签:;  ;  ;  

    基于AJAX的Web信息抽取技术的研究
    下载Doc文档

    猜你喜欢