Deep Web数据集成中的结果抽取及实体识别研究

论文摘要

随着Internet的发展和Web上信息的快速增加,人们越来越多地依赖搜索引擎来查找所需信息。目前的主流搜索引擎主要依靠爬虫爬行网页上的链接来抓取网页,因此基本上只索引了互联网上的静态页面,而Web上存在大量的在线数据库,这些数据库的信息通过提交查询实时产生,对于主流搜索引擎基本上是不可见的,如何有效利用这些Deep Web数据资源是一个值得研究的问题。在Deep Web数据集成系统中,结果的抽取与实体识别是一个重要环节。由于DeepWeb网站返回的结果页面主要通过HTML文档来展现,不同网站返回的结果页面无论在形式上或在内容上都存在着很大的差异,并且HTML着重于数据的表现而不是数据的描述,因此自动提取其中的数据并进行实体识别是一项比较困难的任务。本文在分析Deep Web网站返回页面及其数据表现形式的基础上,提出了一种基于探测查询来提取Deep Web数据的方法,并根据提取出的数据利用文本相似度进行实体识别。该方法首先选取领域高频词建立查询词库,通过统一接口提交查询词,之后利用所提交的查询词在返回页面中的位置,提取Deep Web网站结果返回页面每个数据的标签结构,并记录其各属性的位置。对于待抽取的Deep Web页面,利用这个标签结构和属性位置实现数据抽取,并将抽取出的数据保存到XML文档。之后利用向量的余弦相似度计算文本相似程度,从而确定两个实体是否匹配。实验表明,该方法具有较高的实体识别准确率。

论文目录

摘要

Abstract

第1章绪论

1.1 研究背景

1.2 研究现状

1.2.1 结果抽取

1.2.2 语义标识

1.2.3 实体识别与数据去重

1.3 研究目标

1.4 论文结构

1.5 本章小结

第2章相关知识介绍

2.1 HTML

2.1.1 HTML标签

2.2 XML

2.2.1 XML概念和特性

2.2.2 XML文档结构

2.3 则表达式

2.4 信息抽取技术

2.4.1 信息抽取与信息检索的区别

2.4.2 信息抽取的历史

2.4.3 Web为信息抽取带来的挑战

2.4.4 信息抽取的评价指标

2.5 本章小结

第3章 Deep Web数据集成系统概述

3.1 Deep Web的概念

3.2 Deep Web不可见的原因

3.3 Deep Web数据集成系统结构

3.3.1 Web数据库的发现与分类

3.3.2 接口抽取与集成

3.3.3 查询映射与Web数据库选择

3.4 本章小结

第4章基于探测查询的结果抽取及实体识别

4.1 系统流程

4.2 获取各站点属性位置

4.2.1 统一接口的建立

4.2.2 建立领域属性高频词库

4.2.3 Deep Web站点响应查询表单的基本工作原理

4.2.4 响应页面的获取

4.2.5 页面结构分析

4.2.6 最长公共子序列

4.3 结果抽取及标识

4.3.1 异常响应页面的识别

4.3.2 提取返回页面中"下一页"中的信息

4.4 结果数据的XML存储

4.4.1 数据存入XML

4.4.2 XML到数据库的转换

4.5 实体识别

4.5.1 相似度的选择

4.5.2 实体相似程度

4.6 本章小结

第5章实验与分析

5.1 提取实体属性值

5.2 实体识别

5.2.1 分块计算相似度

5.2.2 余弦相似度

5.2.3 匹配结果

5.3 本章小结

第6章总结与展望

参考文献

攻读硕士学位期间科研工作情况

致谢

Deep Web数据集成中的结果抽取及实体识别研究

论文摘要

论文目录

相关论文文献

猜你喜欢