基于DOM的智能网页信息抽取技术研究

基于DOM的智能网页信息抽取技术研究

论文摘要

随着Internet的快速发展,Web已经发展成为一种巨大的、分布式的和共享的信息资源。目前Web数据大都以HTML页面的形式出现。由于HTML描述的数据是一种半结构化的数据,这使得由HTML描述的Web页面只适合人类的浏览,应用程序无法直接解析并利用Web上的丰富信息。Web中一类重要的信息网页是数据提供网站的动态Web页面,如各种门户新闻网站、电子商务网站等等。这类网页中自由文本数据少,网页结构化程度高,往往数量巨大且内容丰富,因而信息抽取工作非常有价值。如何利用程序从海量的Web中快速抽取信息从而提高人们获取信息的效率变得越来越重要。为了增强Web数据的可用性,提供更多的增值服务,出现了Web信息抽取技术。它通过包装(Wrapper)现有的Web信息源,将网页上的信息以结构化的方式抽取出来,为应用程序利用Web中的数据提供了可能,因此有着广阔的前景,是当今数据库领域的研究热点之一。本文设计了一个基于DOM模型的智能网页信息自动抽取系统,做到能够对网页文本进行分析处理、特征提取与选择、文本分类以及页面区域的分割与重构等,从而将抽取的有用信息以结构化数据存储在数据库中,并且可以随时应用于针对特定信息查询的应用程序中。首先,本文简述了信息抽取技术的研究与发展,对几种典型的Web信息抽取技术进行了综合比较,然后详细介绍了DOM模型的理论和编程实践以及文本分类技术。接下来,本文详细阐述了网页主体信息抽取的体系结构、设计方法和处理流程。首先讨论了基于DOM分析器的文本预处理的解决方案,然后使用信息增益作为特征评估函数,以它的值作为评估函数值,用以对网页文本进行特征项加权,进行文本特征提取。在文本自动分类的章节中,介绍了使用KNN-SVM算法进行自动分类,并介绍了利用映射表进行页面区域分割,再根据内容相关性进行页面重构。最后,文章给出了基于DOM的智能网页信息抽取系统的原型,取得了较好的实验结果。从一系列动态网站提供的Web网页的抽取实验,以及与其他一些通过多个页面的信息抽取的算法的结果对比可以看出,本文提出的Web信息抽取技术实现了较高的抽取精度。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 课题研究背景
  • 1.2 国内外发展状况
  • 1.3 目标及任务
  • 1.4 本文研究内容
  • 1.5 论文结构
  • 2 WEB 信息抽取研究综述
  • 2.1 信息抽取的概念和发展状况
  • 2.2 网页信息抽取的方法
  • 2.2.1 基于知识工程的方法
  • 2.2.2 自动训练的方法
  • 2.2.3 基于DOM 的WEB 抽取技术
  • 2.3 信息抽取的问题与改进
  • 2.4 本章小结
  • 3 关键技术与算法分析
  • 3.1 DOM 技术研究
  • 3.1.1 HTML 文档的树模型
  • 3.1.2 文档树结构的编程接口
  • 3.2 文本自动分类
  • 3.2.1 文本分类概念和一般性描述
  • 3.2.2 向量空间模型
  • 3.2.3 KNN(K Nearest Neighbor,KNN)分类方法
  • 3.2.4 支持向量机SVM(Support Vector Machine)方法
  • 3.3 本章小结
  • 4 网页主体信息抽取方法设计
  • 4.1 基于DOM 分析器的网页预处理
  • 4.1.1 网页预处理
  • 4.1.2 文本预处理的设计方法
  • 4.2 特征提取与选择
  • 4.2.1 标准特征向量的生成
  • 4.2.2 评估函数
  • 4.3 文本分类
  • 4.3.1 KNN-SVM 分类算法分析
  • 4.3.2 文本分类子系统结构图
  • 4.3.3 分类结果
  • 4.4 页面区域信息分割与抽取
  • 4.4.1 网页结构分析
  • 4.4.2 建立映射表
  • 4.4.3 网页区域分割与识别
  • 4.5 本章小结
  • 5 实验结果与性能分析
  • 5.1 开发环境
  • 5.2 系统界面
  • 5.3 数据抽取实验评估
  • 6 结论和展望
  • 参考文献
  • 致谢
  • 个人简历
  • 在学期间发表的论文
  • 相关论文文献

    • [1].信息抽取技术在军事标图系统中的应用[J]. 电子科技 2013(12)
    • [2].技术检测中的信息抽取技术的应用分析[J]. 价值工程 2014(21)
    • [3].信息抽取技术在情报学中的应用分析[J]. 情报理论与实践 2008(05)
    • [4].信息抽取技术在地方社科院网站建设中的应用[J]. 科技资讯 2015(13)
    • [5].信息抽取技术探析[J]. 通化师范学院学报 2008(04)
    • [6].信息抽取技术综述[J]. 福建电脑 2013(05)
    • [7].信息抽取技术及其在数字图书馆中的应用前景[J]. 中国科技资源导刊 2008(02)
    • [8].基于信息抽取技术的中大布市导购助手的设计与实现[J]. 广东轻工职业技术学院学报 2015(03)
    • [9].从ACE会议看信息抽取技术的发展趋势[J]. 现代图书情报技术 2008(03)
    • [10].信息抽取技术研究与探讨[J]. 福建电脑 2010(04)
    • [11].基于本体的信息抽取技术研究[J]. 科技信息(学术研究) 2008(36)
    • [12].基于油田领域本体的信息抽取技术研究[J]. 计算机技术与发展 2015(07)
    • [13].Web信息抽取技术研究[J]. 科技信息 2013(06)
    • [14].基于GATE框架的中文信息抽取技术的研究[J]. 电脑知识与技术 2009(24)
    • [15].藏药药理命名实体识别[J]. 医学信息学杂志 2020(04)
    • [16].中文网页信息抽取技术及分类算法研究[J]. 山东理工大学学报(自然科学版) 2011(03)
    • [17].基于Ontology的信息抽取技术方法分析[J]. 情报理论与实践 2009(02)
    • [18].基于本体的网页数据抽取技术的探讨[J]. 中国多媒体与网络教学学报(上旬刊) 2020(07)
    • [19].基于Web的信息抽取技术探讨[J]. 中国科技信息 2013(04)
    • [20].Web信息抽取技术简述[J]. 河南科技 2013(19)
    • [21].Web信息抽取系统研究综述[J]. 科技创新导报 2010(34)
    • [22].基于Web信息抽取技术的企业情报分析系统的研究[J]. 数字技术与应用 2016(02)
    • [23].基于GATE的油田信息抽取技术研究[J]. 计算机与数字工程 2014(07)
    • [24].WEB就业信息抽取技术研究[J]. 电脑知识与技术 2013(10)
    • [25].基于自动生成模板的Web信息抽取技术[J]. 网络安全技术与应用 2016(09)
    • [26].中医药领域信息抽取技术的研究与应用[J]. 山东科学 2011(06)
    • [27].基于网页结构的WEB信息抽取系统设计[J]. 计算机光盘软件与应用 2012(06)
    • [28].基于DTA的信息抽取技术研究[J]. 计算机应用与软件 2009(12)
    • [29].Web信息抽取技术综述[J]. 计算机应用研究 2010(12)
    • [30].基于VIPS的职位信息抽取技术研究[J]. 软件导刊 2015(09)

    标签:;  ;  ;  

    基于DOM的智能网页信息抽取技术研究
    下载Doc文档

    猜你喜欢