基于内容单元的网页解析与内容提取

基于内容单元的网页解析与内容提取

论文摘要

随着互联网技术的发展,在线中文网页的数量迅速增加,互联网上的信息量越来越大。搜索引擎能够有效地组织和分析海量的信息资源,帮助用户迅速地获取所需要的知识和信息。然而互联网上的网页普遍存在着一些与用户需求无关的噪声内容,这些内容影响了搜索引擎对网页的处理质量。因此,对全部网页的预处理工作就必不可少。本文的目的在于通过网页预处理技术,为搜索引擎建立一个内容精炼、格式完整、编码统一的净化网页库,为其他模块提供数据支持。网页处理技术经过多年的发展,逐渐形成了DOM结点解析与分块解析两种思路。然而由于对网页分划粒度的不当,前者容易割裂结点之间的语义关联,后者很难过滤分块内部的内容。为了弥补他们的缺陷,本文找到了一种介于二者之间的网页解析粒度,称为内容单元,并在内容单元粒度上完成了网页预处理工作。本文的研究内容主要包括以下几个方面:(1)提出网页内容单元的定义,并以内容单元为粒度完成网页分割解析;(2)利用内容单元反映出来的网页结构特征和语言特征,完成主题型网页的识别;根据内容单元的组成、结构和功能,利用启发式规则对其进行取舍,完成网页正文内容的提取;识别具有特定功能的内容单元,提取他们当中蕴含的网页题目、时间、导航等信息;(3)在单个网页的基础上构造并行净化程序,完成搜索引擎T级(terabyte)原始数据的净化,重组格式,统一编码。从实验中得到的结论证明了网页内容单元解析粒度的有效性,对比显示了基于内容单元的网页预处理对主题型网页识别和正文提取效果的提高。同时Inar网页预处理模块的效果在网页分类应用中得到了验证。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 课题的目的及意义
  • 1.3 国内外相关技术发展现状
  • 1.3.1 搜索引擎技术研究现状
  • 1.3.2 网页处理技术研究现状
  • 1.4 本文主要研究内容
  • 第2章 网页处理相关技术介绍
  • 2.1 引言
  • 2.2 网页的表示
  • 2.2.1 超文本标记语言HTML
  • 2.2.2 文档对象模型 DOM
  • 2.2.3 网页字符编码
  • 2.3 网页分块方法
  • 2.3.1 利用标记分布规律进行分块
  • 2.3.2 利用标记布局特性进行分块
  • 2.3.3 利用页面视觉特征进行分块
  • 2.4 SEWM评测任务
  • 2.5 本章小结
  • 第3章 基于内容单元的网页解析
  • 3.1 引言
  • 3.2 内容单元的定义
  • 3.3 内容单元的类别
  • 3.4 内容单元解析的实现
  • 3.4.1 DOM解析工具及改进
  • 3.4.2 URL的语法解析
  • 3.4.3 内容单元的识别
  • 3.5 本章小结
  • 第4章 网页内容提取
  • 4.1 引言
  • 4.2 网页类型判断
  • 4.2.1 网页特征分析
  • 4.2.2 判定规则
  • 4.3 基于规则的正文提取
  • 4.4 网页信息抽取
  • 4.5 本章小结
  • 第5章 Inar搜索引擎预处理模块的设计与实现
  • 5.1 引言
  • 5.2 数据规模及组织形式
  • 5.3 网页字符编码预处理
  • 5.3.1 编码识别
  • 5.3.2 编码转换
  • 5.4 并行净化程序
  • 5.5 本章小结
  • 第6章 系统性能评测
  • 6.1 引言
  • 6.2 实验环境
  • 6.3 功能测试
  • 6.3.1 主题型网页识别实验
  • 6.3.2 网页正文提取实验
  • 6.4 应用测试
  • 6.5 效率测试
  • 6.6 本章小结
  • 结论
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  

    基于内容单元的网页解析与内容提取
    下载Doc文档

    猜你喜欢