论文摘要
信息提取是搜索引擎最关键的一个步骤,怎么样从互联网这个信息大平台最精确的获得有用信息已成为当前搜索引擎研究的热点。本文介绍了几种最新的信息提取方法,在此基础上提出了基于DOM树的正文提取方法。把底层HTML文档解析成为DOM树的形式,根据用户设置参数来设置过滤器,该过滤器对每一个节点进行判断,如果节点与用户设置参数匹配则对该节点进行记录、修改属性以及删除的操作。另外本文进一步提出了基于DOM树的网络噪声净化方法,针对同一模板产生的网页集自动检验出噪声存在的位置。该方法以DOM树节点为操作对象,计算出每个节点的信息量,通过信息量的大小来判断节点是否属于噪声。基于DOM树的正文提取方法简便可行。相对于本文所介绍的几种方法,DOM树的正文提取的侧重点是不同的,其他的提取方法都是通过讨论如何判断正文节点或者正文块实现内容过滤,本文则把提取的重点放在剔除对用户来说无用的节点上面,这是一个方向上的变化。
论文目录
相关论文文献
- [1].正文主体部分之“讨论”[J]. 中外医疗 2019(33)
- [2].正文主体部分之“讨论”[J]. 中国卫生产业 2019(31)
- [3].正文主体部分之“讨论”[J]. 系统医学 2019(23)
- [4].正文主体部分之“讨论”[J]. 系统医学 2019(24)
- [5].正文主体部分之“讨论”[J]. 双足与保健 2019(23)
- [6].正文主体部分之“讨论”[J]. 中国卫生产业 2019(35)
- [7].正文主体部分之“讨论”[J]. 糖尿病新世界 2019(23)
- [8].正文主体部分之“讨论”[J]. 糖尿病新世界 2019(24)
- [9].正文主体部分之“讨论”[J]. 中外医疗 2019(35)
- [10].正文主体部分之“讨论”[J]. 中外医疗 2019(34)
- [11].中华医学会系列杂志对正文中图的要求[J]. 中华肩肘外科电子杂志 2019(04)
- [12].中华医学会系列杂志对正文中表的要求[J]. 中华肩肘外科电子杂志 2019(04)
- [13].正文主体部分之“讨论”[J]. 系统医学 2020(01)
- [14].正文主体部分之“讨论”[J]. 中外医疗 2020(01)
- [15].正文主体部分之“讨论”[J]. 中国卫生产业 2019(36)
- [16].正文主体部分之“讨论”[J]. 糖尿病新世界 2020(01)
- [17].正文主体部分之“讨论”[J]. 中外医疗 2020(02)
- [18].正文主体部分之“讨论”[J]. 中外医疗 2020(04)
- [19].正文主体部分之“讨论”[J]. 中国卫生产业 2020(03)
- [20].正文主体部分之“讨论”[J]. 糖尿病新世界 2020(07)
- [21].正文主体部分之“讨论”[J]. 中外医疗 2020(07)
- [22].正文主体部分之“讨论”[J]. 中外医疗 2020(11)
- [23].中华医学会系列杂志对正文中表的要求[J]. 中华肩肘外科电子杂志 2020(02)
- [24].正文主体部分之“讨论”[J]. 中国卫生产业 2020(13)
- [25].正文主体部分之“讨论”[J]. 中外医疗 2020(12)
- [26].张正文作品[J]. 内燃机与配件 2020(14)
- [27].正文主体部分之“讨论”[J]. 中外医疗 2020(14)
- [28].正文主体部分之“讨论”[J]. 糖尿病新世界 2020(11)
- [29].正文主体部分之“讨论”[J]. 中外医疗 2020(16)
- [30].正文主体部分之“讨论”[J]. 中国卫生产业 2020(17)