基于DOM的HTML网页正文信息抽取模块的设计与实现

基于DOM的HTML网页正文信息抽取模块的设计与实现

论文摘要

HTML网页正文信息抽取功能已经成为目前很多互联网应用的基础工作和亟待解决的问题。HTML网页所要表达的“正文”信息通常会包含在“噪音”信息中。我们在浏览网页的时候经常会发现两部分内容:一部分内容体现的是网页的正文信息,比如一份简历网页中的简历部分,我们称之为“正文”内容:另一部分则是与网页正文信息无关的导航条、广告信息、版权信息等内容,我们称之为“噪音”信息。大量噪音信息的存在使得用户很难迅速获取主题信息,为了解决这一问题,如何快速、准确地抽取出网页正文信息是影响互联网应用服务质量的关键技术之一。HTML网页正文信息抽取通常采用的是一种归纳学习的方法,从给定的网页训练样本中学习抽取规则,这种方法虽然能够准确地抽取出正文信息,但是当网站的模板发生改变后,必须重新学习抽取规则,随着模板数量的不断增长,这种抽取器的维护成本会越来越高,而且适应性也会很差。本文的方法是基于文档对象模型规范,把网页的HTML代码表示成一棵DOM树,遍历整个DOM树,根据每一个节点的主题相关度以及该节点上下文的主题相关度来对内容块进行判定。依据此判定方法判定出要抽取的信息,并删除掉无关的信息,最后输出只含有正文信息的HTML文档。此后,有人提出在判断内容块时,可以考虑增加判断内容块的上下文环境,使判定结果更加合理。利用这种思想,本文在抽取算法中增加了对节点上下文的判定,能够更加准确地抽取出正文信息。同时,本方法不依赖于网页的模板信息,是一种通用的正文信息抽取方法。最后,实验结果也证明了本方法的准确性和有效性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 课题背景
  • 1.2 网页正文抽取技术发展现状
  • 1.2.1 国外网页正文信息抽取技术发展现状
  • 1.2.2 国内网页正文信息抽取技术发展现状
  • 1.2.3 发展趋势及小结
  • 1.3 课题任务
  • 1.3.2 课题内容
  • 1.3.3 本人承担任务
  • 1.4 论文结构
  • 第二章 主题网络爬虫系统概述及技术分析
  • 2.1 系统的设计目标
  • 2.2 系统的运行环境
  • 2.3 系统的体系结构
  • 2.3.1 主题网络爬虫的系统组成
  • 2.3.2 主题确立模块
  • 2.3.3 抓取模块
  • 2.3.4 主题预测模块
  • 2.3.5 主题相关度分析模块
  • 2.3.6 网页分析模块
  • 2.3.7 网页正文信息抽取模块
  • 2.3.8 排序模块
  • 2.4 系统的关键技术分析
  • 2.5 本章小结
  • 第三章 网页正文信息抽取模块的系统分析
  • 3.1 网页正文信息抽取的基本功能需求
  • 3.2 网页正文信息抽取的工作流程和实现思路
  • 3.2.1 工作流程
  • 3.2.2 设计思路
  • 3.2.3 抽取工具简介
  • 3.3 网页正文信息抽取的功能目标
  • 3.3.1 解析模块
  • 3.3.2 过滤模块
  • 3.3.3 分析模块
  • 3.3.4 剪枝模块
  • 3.3.5 转换模块
  • 3.4 DOM(文档对象模型)介绍
  • 3.4.1 文档对象模型概述
  • 3.4.2 文档对象模型的内部逻辑结构
  • 3.4.3 文档对象模型的四个基本接口
  • 3.4.4 如何将HTML文档转换成DOM树
  • 3.4.5 DOM文档的遍历
  • 3.4.6 处理文档对象模型中的文本节点
  • 3.4.7 处理DOM文档节点的属性
  • 3.4.8 节点的处理
  • 3.4.9 文档对象的序列化
  • 第四章 HTML网页正文抽取模块的实现
  • 4.1 HTML的解析
  • 4.2 HTML的过滤
  • 4.3 内容块
  • 4.4 算法综述
  • 4.5 过滤算法
  • 4.6 正文分析
  • 4.6.1 HTML网页正文内容的特征
  • 4.6.2 主题相关度的判定
  • 4.7 剪枝算法
  • 4.8 算法总结
  • 第五章 算法测评及应用
  • 5.1 实验系统的组成
  • 5.2 实验数据集
  • 5.3 实验测评标准
  • 5.4 实验结果及分析
  • 5.5 网页主题信息抽取的应用领域
  • 第六章 结束语
  • 6.1 论文工作总结
  • 6.2 问题和展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].DOM质量自动检查方法[J]. 地理空间信息 2020(01)
    • [2].面向第三次国土调查的DOM制作研究[J]. 科技创新导报 2020(07)
    • [3].溶解性有机质(DOM)对不同浓度卡马西平在蒙脱土上吸附行为的影响[J]. 环境化学 2020(06)
    • [4].海南北部滨海区不同土地利用模式下土壤DOM粒径分布与光谱特性[J]. 农业资源与环境学报 2020(05)
    • [5].基于DOM的可视化布局解析器的设计与实现[J]. 计算机时代 2017(03)
    • [6].煤矸石中溶解性有机质(DOM)溶出的动力学变化[J]. 煤炭学报 2017(09)
    • [7].微生物降解影响下湖泊草源DOM与重金属的相互作用[J]. 中国环境科学 2020(11)
    • [8].震荡时间和温度对砂土中DOM提取的影响研究[J]. 环境科学与技术 2019(09)
    • [9].西北内陆小流域水体DOM三维荧光光谱特征[J]. 环境科学与技术 2019(09)
    • [10].“DOM”课堂:高职中医学专业公共英语教学改革的新探索[J]. 中国医学教育技术 2020(02)
    • [11].盐度和淹水程度对短叶茳芏枯落物分解初期DOM含量及其组成结构的影响[J]. 生态学报 2020(08)
    • [12].间歇生物接触氧化工艺中DOM三维荧光光谱分析[J]. 环境科学与技术 2016(10)
    • [13].低温热水解对剩余污泥DOM的溶出特征分析[J]. 中国环境科学 2020(11)
    • [14].面向大规模DOM坐标系转换方法与软件实现[J]. 地理信息世界 2013(03)
    • [15].基于ArcGIS的DOM质量检查技术研究[J]. 测绘与空间地理信息 2019(11)
    • [16].数字高程模型对DOM纹理几何质量的影响分析[J]. 测绘与空间地理信息 2020(07)
    • [17].无人机在大比例尺DOM生产中的应用[J]. 测绘标准化 2011(04)
    • [18].新疆奎屯地区高砷地下水DOM三维荧光特征[J]. 中国环境科学 2020(11)
    • [19].城市污水处理系统中DOM检测及环境行为研究[J]. 工业水处理 2020(11)
    • [20].基于无人机摄影测量空三加密技术在1:1000 DOM制作的应用[J]. 江西测绘 2016(01)
    • [21].黑土对DOM的吸附作用及其影响因素[J]. 江苏农业科学 2015(08)
    • [22].利用航空摄影制作数字正射影像图(DOM)[J]. 价值工程 2014(16)
    • [23].信息化测绘中DOM匀光技术流程改造[J]. 甘肃科技 2011(23)
    • [24].DOM的质量检查[J]. 现代测绘 2009(04)
    • [25].不同营林措施对森林土壤DOM的影响研究进展[J]. 福建师范大学学报(自然科学版) 2008(04)
    • [26].不同溶解氧水平上覆水中DOM荧光特性及总氮含量评估(英文)[J]. 光谱学与光谱分析 2016(03)
    • [27].再生水回灌中DOM对重金属迁移与保留问题研究[J]. 中国资源综合利用 2016(03)
    • [28].浅析影响DOM平面精度的因素[J]. 现代测绘 2013(05)
    • [29].数字正射影像图(DOM)的制作与质量控制[J]. 地矿测绘 2009(02)
    • [30].短期增温及减少降雨对杉木人工林土壤DOM的数量及其光谱学特征的影响[J]. 中国生态农业学报 2017(07)

    标签:;  ;  ;  ;  

    基于DOM的HTML网页正文信息抽取模块的设计与实现
    下载Doc文档

    猜你喜欢