论文摘要
在Internet的飞速发展和普及下,丰富的Web资源构成了一个巨大的全球性信息仓库,网络已经成为人们获取信息的一个重要手段。面对庞大的Web信息,用户如何从繁杂的数据中快速、准确地找到感兴趣的信息变得越来越困难。为此,近来出现了很多自动和半自动的Deep Web数据集成系统,本文设计了Deep Web信息集成系统DWIIS (Deep Web Information Integration System),该系统主要可分为Deep Web查询接口获取、查询接口集成、查询分解、查询结果获取、查询结果整合、查询结果展示几个部分,对互联网络上的Deep Web数据库信息进行信息整合重组,并基于这些信息做增值服务工作。为用户提供了“一站式”的信息查找服务,极大地提高了信息的查找速度和准确性。重复语义标注、复杂的抽取模式生成方法及嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题,本文提出基于结果模式的Deep Web数据抽取机制,首先通过构建与分析样本结果页面的网页数据特征矩阵建立属性集、生成属性值抽取标识,二者共同组成了页面的结果模式,属性集可以较好地支持后续实体识别、结果合并等应用;属性值抽取标识支持同类结果页面的数据抽取。然后根据结果模式对同类结果页面进行数据抽取,便得到带有语义标注的数据集。对于获取的结果数据集,本文还详细阐述了基于典型属性的实体识别方法和基于非典型属性的实体识别方法,实现了DWIIS其中的实体识别子系统。最后通过实验,将本文提出的方法与同类成果进行了详细的对比,基于结果模式的数据抽取方法和实体识别子系统都具有较高的准确率及效率。
论文目录
摘要ABSTRACT第1章 绪论1.1 研究背景1.2 研究目标1.3 本文工作第2章 研究基础2.1 Deep Web2.1.1 Deep Web概念2.1.2 Deep Web信息抽取典型系统2.2 Web信息抽取技术2.2.1 基于自然语言理解方式的信息抽取2.2.2 基于包装器归纳方式(Wrapper Induction)的信息抽取2.2.3 基于Ontology方式的信息抽取2.2.4 基于HTML结构的信息抽取2.2.5 信息抽取的评价2.3 相关技术2.3.1 XML2.3.2 DOM4J2.3.3 Java技术2.4 本章小结第3章 基于结果模式DEEP WEB数据抽取机制3.1 研究系统框架3.2 Deep Web页面的分析3.2.1 Deep Web页面特点3.2.2 Deep Web页面数据信息的来源3.2.3 Deep Web页面的生成方式3.3 结果模式定义及生成机制3.3.1 结果模式定义3.3.2 结果模式的生成机制3.4 基于结果模式的Deep Web数据抽取机制3.4.1 基于结果模式的数据抽取框架3.4.2 数据抽取3.5 本章小结第4章 结果模式生成4.1 网页分块算法4.2 正文块识别4.3 构建网页数据特征矩阵4.3.1 基于分隔标签构建初始网页数据特征矩阵4.3.2 构建最终网页数据特征矩阵4.4 生成属性集4.5 本章小结第5章 基于结果模式的DEEP WEB数据抽取5.1 数据记录中属性值的获取5.2 Deep Web中的实体识别5.2.1 基于非典型属性的实体识别5.2.2 基于典型属性的实体识别5.2.3 实体识别方法比较5.3 本章小结第6章 实验设计与实验结果的分析6.1 实验数据6.2 实验结果与分析6.2.1 嵌套属性划分的准确性实验6.2.2 数据抽取准确率实验6.2.3 数据抽取效率实验6.2.4 实体识别准确率实验6.3 本章小结第7章 结论参考文献致谢
相关论文文献
标签:网页数据特征矩阵论文; 结果模式论文; 数据抽取论文; 实体识别论文;