Web网页正文抽取方法研究

Web网页正文抽取方法研究

论文摘要

随着Internet的迅速发展,WWW已发展为一个庞大的信息空间,为人们供了极其丰富的信息资源。然而一个网页的正文四周,通常会夹杂着许多与正文不相关的“噪音信息”,这些内容往往对人们浏览网页造成干扰。如何帮助人们提取出网页正文,避开不相关的信息干扰,对于Web数据清洗、文档自动摘要的形成以及文档分类等诸多领域的应用都是非常有意义的。本文对DSE(Data-rich Sub-tree Extraction)算法进行分析,提出了一种改进的基于网页结构和内容的网页正文抽取算法——DTE(DOM-Based TextExtraction),设计并实现了一个网页正文抽取原型系统,并将该算法应用到其中。DTE算法弥补了许多已有算法只关注网页结构或只关注网页内容的不足,同时考虑网页的结构和内容。DTE算法在把网页解析成DOM树的基础上,通过对DOM树的节点比较和匹配,确定网页的噪音信息节点和正文信息节点,从而精确获取网页模板。当新网页出现时,使用得到的网页模板去除大部分噪音信息后,结合语义,准确抽取正文信息。文中采用了一定的算法,定位出网页的评论、采用语义去除无关图片,能使保证正文图片和表格的完整性。实验表明,该方法可取得较高的准确率和完整性,能有效地抽取网页正文信息。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 问题的提出及意义
  • 1.2 研究内容
  • 1.3 论文结构
  • 第2章 相关知识
  • 2.1 信息抽取
  • 2.1.1 数据的组织形式
  • 2.1.2 信息抽取概述
  • 2.1.3 Web信息抽取概述
  • 2.2 HTML
  • 2.2.1 HTML的历史
  • 2.2.2 HTML基本语法
  • 2.2.3 HTML的特点
  • 2.3 DOM
  • 2.3.1 DOM的定义及特点
  • 2.3.2 DOM的一些操作
  • 2.4 网页正文的定义
  • 2.5 本章小结
  • 第3章 研究现状
  • 3.1 基于统计的方法
  • 3.2 基于DOM的方法
  • 3.3 基于网页分块的方法
  • 3.4 基于标签窗的方法
  • 3.5 基于模板的方法
  • 3.6 本章小结
  • 第4章 网页正文抽取
  • 4.1 网页预处理
  • 4.1.1 字符编码问题
  • 4.1.2 网页规范化
  • 4.1.3 噪音信息过滤
  • 4.2 DTE算法与模板生成
  • 4.2.1 节点类型定义
  • 4.2.2 节点比较算法
  • 4.2.3 DOM树匹配算法
  • 4.2.4 候选子树中评论信息发现
  • 4.3 处理节点内容
  • 4.3.1 构造正文特征向量 T
  • 4.3.2 抽取网页标题
  • 4.3.3 内容块中图片、表格等信息的处理
  • 4.4 使用模板抽取网页正文
  • 4.5 本章小结
  • 第5章 原型系统的实现及实验
  • 5.1 工作环境
  • 5.2 原型系统的设计与实现
  • 5.3 实验与分析
  • 5.3.1 评价标准
  • 5.3.2 实验数据集
  • 5.3.3 实验结果及分析
  • 5.4 本章小结
  • 第6章 结论与展望
  • 6.1 论文总结
  • 6.2 进一步的工作
  • 致谢
  • 参考文献
  • 攻读学位期间的研究成果
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  

    Web网页正文抽取方法研究
    下载Doc文档

    猜你喜欢