基于多特征的Web页面分块算法MFPS的研究与实现

基于多特征的Web页面分块算法MFPS的研究与实现

论文摘要

随着互联网的快速发展,Web已成为人们获取信息的重要来源。为了满足人们不断增长的从互联网上获取信息的需求,Web信息抽取技术不可避免地成为当今研究的技术热点。由于互联网上的Web页面往往具有多样性、不规范性、包含信息复杂以及半结构化等特性,这些特性为Web信息抽取技术带来了很大的困难。如何使Web信息抽取技术不受Web页面特性影响而具有通用性,并能精确地抽取页面信息成为Web信息抽取技术亟待解决的问题。在对复杂的Web页面进行信息抽取的过程中,Web页面分块技术成为目前研究的一个方向。然而,目前的Web页面分块算法多数利用单一特征信息对Web页面进行分块,不能很好地应对复杂多变的Web页面类型。针对这种情况,本文提出了基于多特征的Web页面分块算法,该算法先将Web页面分成若干个相互独立的语义块,再根据应用的需要,从中选取具有相应语义特征的语义块进行信息抽取。本文首先分析了Web页面中的布局特征、显示特征、语义特征和文档结构特征等多特征信息,建立了基于多特征的Web页面语义块模型。在此基础上,本文提出了基于多特征的Web页面分块算法MFPS,并阐述了MFPS分块算法的基本思想和执行过程。然后,本文重点阐述了MFPS分块算法的实现,其中分析并解决了相似块识别的问题,阐述了包括单行类型、多行类型、多块类型、行块交替类型等类型的结点序列的合并方法,给出了包括语义类型、分割类型、多特征信息的识别方法,给出了MFPS分块算法的形式化描述,并对MFPS分块算法的性能做了分析。最后,本文提出了以MFPS分块算法为基础的基于块的重要度的页面类型识别算法PTIBID,该方法通过分析MFPS分块算法得到的语义块结构及多特征信息,能够有效地识别页面类型并抽取出其中的信息属性,以满足实际Web信息抽取的需要。实验结果表明,与现有的分块算法相比,MFPS分块算法具有分块精度较高、分块结构较为合理、适应能力较强等特点,可以为Web信息抽取技术提供有效的支持。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 研究目标
  • 1.3 本文工作
  • 第二章 研究基础
  • 2.1 Web信息抽取技术
  • 2.1.1 Web信息抽取
  • 2.1.2 Web信息抽取技术的分类
  • 2.2 Web页面特性
  • 2.2.1 信息聚合特性
  • 2.2.2 信息复杂性
  • 2.2.3 半结构化特性
  • 2.2.4 多样性与非规范性
  • 2.2.5 布局方式的灵活性
  • 2.3 Web页面分块技术
  • 2.3.1 HTML标签分析法
  • 2.3.2 DOM树分析法
  • 2.3.3 其他方法
  • 2.3.4 Web页面分块技术的应用
  • 第三章 基于多特征的WEB页面分块算法
  • 3.1 Web页面特征分析
  • 3.1.1 布局特征分析
  • 3.1.2 显示特征分析
  • 3.1.3 语义特征分析
  • 3.1.4 文档结构特征分析
  • 3.2 基于多特征的语义块模型
  • 3.3 基于语义块模型的MFPS分块算法
  • 3.3.1 算法思想
  • 3.3.2 MFPS分块过程
  • 第四章 MFPS分块算法的实现
  • 4.1 相似块的识别方法
  • 4.2 结点序列的合并方法
  • 4.2.1 单行类型的合并
  • 4.2.2 多行类型的合并
  • 4.2.3 多块类型的合并
  • 4.2.4 行块交替类型的合并
  • 4.3 分割类型的识别方法
  • 4.4 语义类型的识别方法
  • 4.4.1 文本类型的识别
  • 4.4.2 图片类型的识别
  • 4.4.3 文本链接类型的识别
  • 4.4.4 图片链接类型的识别
  • 4.4.5 表单类型的识别
  • 4.4.6 普通类型的识别
  • 4.5 多特征信息的识别方法
  • 4.6 MFPS分块算法的基本实现
  • 4.7 性能分析
  • 第五章 基于MFPS分块算法的页面类型识别与信息属性的抽取
  • 5.1 面向主题的块的重要度分析
  • 5.1.1 面向主题的块的重要度
  • 5.1.2 分隔条检测
  • 5.1.3 块的重要度的计算算法
  • 5.2 新闻页面识别与信息属性的抽取
  • 5.2.1 新闻页面识别算法
  • 5.2.2 信息属性的抽取
  • 5.2.3 实验结果
  • 5.3 导航页面识别与信息属性的抽取
  • 5.3.1 导航页面识别算法
  • 5.3.2 信息属性的抽取
  • 5.3.3 实验结果
  • 第六章 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].多面体模型中分裂分块算法的设计与实现[J]. 计算机学报 2020(06)
    • [2].向量化友好的循环分块因子选择算法[J]. 计算机工程与应用 2020(15)
    • [3].自适应多尺度分块压缩感知算法[J]. 中国图象图形学报 2017(09)
    • [4].孩子害羞与依赖 家长做错了什么[J]. 青年教师 2016(01)
    • [5].一种基于分块特征的交互式图像色彩编辑方法[J]. 红外与激光工程 2019(12)
    • [6].懒交互模式下散乱不规则分块引导的目标跟踪[J]. 中山大学学报(自然科学版) 2018(04)
    • [7].基于压缩感知和图像分块的遮挡人脸识别[J]. 西华大学学报(自然科学版) 2015(03)
    • [8].面向局部性和并行优化的循环分块技术[J]. 计算机研究与发展 2015(05)
    • [9].分块推进,整体提升写作能力[J]. 新作文(中学作文教学研究) 2019(10)
    • [10].如何构建初三“递进分块式”课后作业[J]. 中小学教学研究 2008(02)
    • [11].基于覆盖聚类的大本体分块映射研究[J]. 计算机工程与应用 2009(10)
    • [12].基于神经网络的循环分块大小预测[J]. 计算机科学 2020(08)
    • [13].基于文件固定分块的数据去重技术研究[J]. 沙洲职业工学院学报 2017(01)
    • [14].多媒体教学中的屏幕分块算法的改进[J]. 微型电脑应用 2016(04)
    • [15].分块查找算法性能分析[J]. 电脑编程技巧与维护 2016(16)
    • [16].数控机床造型设计钣金分块[J]. 科技与企业 2014(07)
    • [17].基于两级分块的文件同步方法[J]. 计算机工程与设计 2014(03)
    • [18].大型坑基支护中分块施工的优化研究[J]. 沙洲职业工学院学报 2014(03)
    • [19].一种在线的动态网页分块缓存方法[J]. 电子学报 2009(05)
    • [20].基于结构标准的大本体分块映射研究[J]. 电脑知识与技术 2009(18)
    • [21].多信息集成下输变电工程数据智能分块方法研究[J]. 自动化与仪器仪表 2020(09)
    • [22].基于内容分块优化算法的云存储去冗技术测试[J]. 微型电脑应用 2020(09)
    • [23].一种基于分块的虹膜识别方法[J]. 四川大学学报(工程科学版) 2016(S1)
    • [24].动态分块隔行扫描算法设计与实现[J]. 成都信息工程学院学报 2014(06)
    • [25].局部分块的一类支持向量数据描述[J]. 计算机应用 2015(04)
    • [26].分块二维保局投影方法及其在人脸识别中的应用[J]. 计算机应用 2009(08)
    • [27].基于分块压缩感知图像重构算法研究[J]. 科技创新与应用 2017(12)
    • [28].一种光栅地图图像分块算法[J]. 电子世界 2017(08)
    • [29].“适当分块”策略在初中化学概念教学中应用的研究[J]. 化学教与学 2015(05)
    • [30].基于分块永磁磁极的永磁电机齿槽转矩削弱方法[J]. 电工技术学报 2012(03)

    标签:;  ;  ;  ;  ;  

    基于多特征的Web页面分块算法MFPS的研究与实现
    下载Doc文档

    猜你喜欢