论文摘要
随着互联网的快速发展,Web已成为人们获取信息的重要来源。为了满足人们不断增长的从互联网上获取信息的需求,Web信息抽取技术不可避免地成为当今研究的技术热点。由于互联网上的Web页面往往具有多样性、不规范性、包含信息复杂以及半结构化等特性,这些特性为Web信息抽取技术带来了很大的困难。如何使Web信息抽取技术不受Web页面特性影响而具有通用性,并能精确地抽取页面信息成为Web信息抽取技术亟待解决的问题。在对复杂的Web页面进行信息抽取的过程中,Web页面分块技术成为目前研究的一个方向。然而,目前的Web页面分块算法多数利用单一特征信息对Web页面进行分块,不能很好地应对复杂多变的Web页面类型。针对这种情况,本文提出了基于多特征的Web页面分块算法,该算法先将Web页面分成若干个相互独立的语义块,再根据应用的需要,从中选取具有相应语义特征的语义块进行信息抽取。本文首先分析了Web页面中的布局特征、显示特征、语义特征和文档结构特征等多特征信息,建立了基于多特征的Web页面语义块模型。在此基础上,本文提出了基于多特征的Web页面分块算法MFPS,并阐述了MFPS分块算法的基本思想和执行过程。然后,本文重点阐述了MFPS分块算法的实现,其中分析并解决了相似块识别的问题,阐述了包括单行类型、多行类型、多块类型、行块交替类型等类型的结点序列的合并方法,给出了包括语义类型、分割类型、多特征信息的识别方法,给出了MFPS分块算法的形式化描述,并对MFPS分块算法的性能做了分析。最后,本文提出了以MFPS分块算法为基础的基于块的重要度的页面类型识别算法PTIBID,该方法通过分析MFPS分块算法得到的语义块结构及多特征信息,能够有效地识别页面类型并抽取出其中的信息属性,以满足实际Web信息抽取的需要。实验结果表明,与现有的分块算法相比,MFPS分块算法具有分块精度较高、分块结构较为合理、适应能力较强等特点,可以为Web信息抽取技术提供有效的支持。
论文目录
相关论文文献
- [1].多面体模型中分裂分块算法的设计与实现[J]. 计算机学报 2020(06)
- [2].向量化友好的循环分块因子选择算法[J]. 计算机工程与应用 2020(15)
- [3].自适应多尺度分块压缩感知算法[J]. 中国图象图形学报 2017(09)
- [4].孩子害羞与依赖 家长做错了什么[J]. 青年教师 2016(01)
- [5].一种基于分块特征的交互式图像色彩编辑方法[J]. 红外与激光工程 2019(12)
- [6].懒交互模式下散乱不规则分块引导的目标跟踪[J]. 中山大学学报(自然科学版) 2018(04)
- [7].基于压缩感知和图像分块的遮挡人脸识别[J]. 西华大学学报(自然科学版) 2015(03)
- [8].面向局部性和并行优化的循环分块技术[J]. 计算机研究与发展 2015(05)
- [9].分块推进,整体提升写作能力[J]. 新作文(中学作文教学研究) 2019(10)
- [10].如何构建初三“递进分块式”课后作业[J]. 中小学教学研究 2008(02)
- [11].基于覆盖聚类的大本体分块映射研究[J]. 计算机工程与应用 2009(10)
- [12].基于神经网络的循环分块大小预测[J]. 计算机科学 2020(08)
- [13].基于文件固定分块的数据去重技术研究[J]. 沙洲职业工学院学报 2017(01)
- [14].多媒体教学中的屏幕分块算法的改进[J]. 微型电脑应用 2016(04)
- [15].分块查找算法性能分析[J]. 电脑编程技巧与维护 2016(16)
- [16].数控机床造型设计钣金分块[J]. 科技与企业 2014(07)
- [17].基于两级分块的文件同步方法[J]. 计算机工程与设计 2014(03)
- [18].大型坑基支护中分块施工的优化研究[J]. 沙洲职业工学院学报 2014(03)
- [19].一种在线的动态网页分块缓存方法[J]. 电子学报 2009(05)
- [20].基于结构标准的大本体分块映射研究[J]. 电脑知识与技术 2009(18)
- [21].多信息集成下输变电工程数据智能分块方法研究[J]. 自动化与仪器仪表 2020(09)
- [22].基于内容分块优化算法的云存储去冗技术测试[J]. 微型电脑应用 2020(09)
- [23].一种基于分块的虹膜识别方法[J]. 四川大学学报(工程科学版) 2016(S1)
- [24].动态分块隔行扫描算法设计与实现[J]. 成都信息工程学院学报 2014(06)
- [25].局部分块的一类支持向量数据描述[J]. 计算机应用 2015(04)
- [26].分块二维保局投影方法及其在人脸识别中的应用[J]. 计算机应用 2009(08)
- [27].基于分块压缩感知图像重构算法研究[J]. 科技创新与应用 2017(12)
- [28].一种光栅地图图像分块算法[J]. 电子世界 2017(08)
- [29].“适当分块”策略在初中化学概念教学中应用的研究[J]. 化学教与学 2015(05)
- [30].基于分块永磁磁极的永磁电机齿槽转矩削弱方法[J]. 电工技术学报 2012(03)