自定义主题信息抽取的研究与应用

论文摘要

当今社会,网站是人们获得信息的主要来源之一,可是在网站提供的信息里面难免掺杂着一些人们不关心的信息,如图片,广告,无关链接等。一些商业性网站已经发现了这些弊端,采用了“推”的技术,向互联网上的人们发布RSS种子,人们通过定制可以直接定位到所需信息,这样的信息准确,及时。但是,一些非商业性网站,还没有这样的一个统一的信息发布平台用于不同主题信息的定制,所以在进行信息获取方面上,要实现新、快、准的目标,就要主动的去其他网站上的信息源获取。本文在自定义主题信息抽取的需求背景之下,通过对链接上下文算法和WEB目录型网页结构特点的研究,提出局部扩散算法来发现主题相关链接,从而确定主题链接块的位置,减少与主题无关的链接被发现的概率来满足自定义主题的需求。在主题信息抽取阶段,将网页HTML标签文档进行基于布局标签的划分,构造网页的粗粒度划分DOM树模型表示,通过文本语义分析,获取网页语义块的特征向量作为网页的量化表示,在进行抽取时利用网页本身文本语义进行,省去了通过大量训练集的训练来确定模板的阶段,而且通过实验证明该抽取算法有助于提高在抽取信息过程中的整体完整性,指出了适用的范围,并且在实际应用中采用语义块分析与语义块位置相结合的方式,直接定位抽取块,从而避免无关信息的抽取。最后通过对主题信息抽取的研究和公安信息网页的研究与应用,建立了一个基于块位置的自定义主题信息抽取系统。解决了如何自动的、广泛的、准确的对不同网站上的主题信息进行抽取,并且根据对不同主题进行的自定义,可以将抽取的信息进行自定义分类,实现自动化的主题信息抽取。通过实验证明,此系统不仅对简单型网页在信息抽取上取得了很好的准确率和召回率,而且对一些密集型的门户网站在主题信息抽取上也取得了比较好的效果。系统现在应用于大连市刑侦大队网上作战子系统中,对网上作战系统的具体完善提供了信息基础。

论文目录

摘要

Abstract

1 绪论

1.1 课题研究背景

1.2 国内外研究现状

1.3 本文的主要工作和组织

2 Web数据的自动采集技术

2.1 网络机器人技术

2.1.1 工作原理

2.1.2 设计原则

2.1.3 深度、广度优先搜索

2.1.4 网络陷阱

2.1.5 均衡访问

2.1.6 超链接提取相关实现

2.2 网页数据提取技术

2.2.1 HTML概述

2.2.2 网页的结构分析

2.2.3 网页控制符分析

2.2.4 网页纯文本的提取

3 网页主题确定的方法研究

3.1 自定义主题

3.1.1 自定义主题概述

3.1.2 自定义主题的确定

3.2 网页主题区域的链接

3.3 主题链接的获取

3.3.1 链接锚文本与链接上下文简介

3.3.2 链接锚文本文档与链接上下文文档

3.3.3 链接上下文提取算法

3.3.4 局部扩散提取链接方法的研究

4 网页主题信息抽取算法的研究

4.1 主题信息抽取目标

4.2 主题信息抽取算法应用研究

4.3 网页文本语义获取的方法研究

4.3.1 基于布局标签的粗粒度划分

4.3.2 网页文本语义获取方法研究

4.4 基于分块的网页主题信息抽取流程

5 主题化信息抽取在刑侦网中的应用

5.1 网页特征分析

5.2 刑侦网页主题信息抽取算法的实现

5.2.1 语义块和网页类型判别方法

5.2.2 基于网页量化的主题信息抽取

5.2.3 实验结果比较

5.2.4 刑侦网页主题信息抽取结果

5.3 自定义主题信息抽取系统的设计

5.3.1 系统两大功能

5.3.2 系统三大模块

5.3.3 系统实验结果

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

自定义主题信息抽取的研究与应用

论文摘要

论文目录

相关论文文献

猜你喜欢