论文摘要
随着Internet的发展和Web上信息的快速增加,人们越来越多地依赖搜索引擎来查找所需信息。目前的主流搜索引擎主要依靠爬虫爬行网页上的链接来抓取网页,因此基本上只索引了互联网上的静态页面,而Web上存在大量的在线数据库,这些数据库的信息通过提交查询实时产生,对于主流搜索引擎基本上是不可见的,如何有效利用这些Deep Web数据资源是一个值得研究的问题。在Deep Web数据集成系统中,结果的抽取与实体识别是一个重要环节。由于DeepWeb网站返回的结果页面主要通过HTML文档来展现,不同网站返回的结果页面无论在形式上或在内容上都存在着很大的差异,并且HTML着重于数据的表现而不是数据的描述,因此自动提取其中的数据并进行实体识别是一项比较困难的任务。本文在分析Deep Web网站返回页面及其数据表现形式的基础上,提出了一种基于探测查询来提取Deep Web数据的方法,并根据提取出的数据利用文本相似度进行实体识别。该方法首先选取领域高频词建立查询词库,通过统一接口提交查询词,之后利用所提交的查询词在返回页面中的位置,提取Deep Web网站结果返回页面每个数据的标签结构,并记录其各属性的位置。对于待抽取的Deep Web页面,利用这个标签结构和属性位置实现数据抽取,并将抽取出的数据保存到XML文档。之后利用向量的余弦相似度计算文本相似程度,从而确定两个实体是否匹配。实验表明,该方法具有较高的实体识别准确率。
论文目录
摘要Abstract第1章 绪论1.1 研究背景1.2 研究现状1.2.1 结果抽取1.2.2 语义标识1.2.3 实体识别与数据去重1.3 研究目标1.4 论文结构1.5 本章小结第2章 相关知识介绍2.1 HTML2.1.1 HTML标签2.2 XML2.2.1 XML概念和特性2.2.2 XML文档结构2.3 则表达式2.4 信息抽取技术2.4.1 信息抽取与信息检索的区别2.4.2 信息抽取的历史2.4.3 Web为信息抽取带来的挑战2.4.4 信息抽取的评价指标2.5 本章小结第3章 Deep Web数据集成系统概述3.1 Deep Web的概念3.2 Deep Web不可见的原因3.3 Deep Web数据集成系统结构3.3.1 Web数据库的发现与分类3.3.2 接口抽取与集成3.3.3 查询映射与Web数据库选择3.4 本章小结第4章 基于探测查询的结果抽取及实体识别4.1 系统流程4.2 获取各站点属性位置4.2.1 统一接口的建立4.2.2 建立领域属性高频词库4.2.3 Deep Web站点响应查询表单的基本工作原理4.2.4 响应页面的获取4.2.5 页面结构分析4.2.6 最长公共子序列4.3 结果抽取及标识4.3.1 异常响应页面的识别4.3.2 提取返回页面中"下一页"中的信息4.4 结果数据的XML存储4.4.1 数据存入XML4.4.2 XML到数据库的转换4.5 实体识别4.5.1 相似度的选择4.5.2 实体相似程度4.6 本章小结第5章 实验与分析5.1 提取实体属性值5.2 实体识别5.2.1 分块计算相似度5.2.2 余弦相似度5.2.3 匹配结果5.3 本章小结第6章 总结与展望参考文献攻读硕士学位期间科研工作情况致谢
相关论文文献
标签:数据抽取论文; 实体识别论文;
Deep Web数据集成中的结果抽取及实体识别研究
下载Doc文档