主题搜索引擎的信息抽取和索引的研究

论文摘要

随着互联网的迅猛发展,“信息过载”已经成为一个亟待解决的问题。为了使用户准确获取他想要的信息,信息抽取成为必要。从网页中抽取信息的程序称为Wrapper。关键的任务是:Wrapper的构造要尽可能快速,不需要过多人为地参与,并且,构造出的Wrapper要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关。针对Wrapper生成问题,人们提出了各种各样的方法。这些方法的抽取模式语言基本上都是自己定制的,往往很简单、难以描述精确或者复杂的信息抽取模式。尽管通过人为标记的样本可以自动归纳出抽取规则,但这些抽取规则很难达到很高的精度、健壮性和通用性。本文使用标准的XML技术来解决网页信息抽取问题。基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。为了快速的构造抽取规则,我们开发了一个信息抽取平台。由于抽取规则的失效主要源于XPath路径表达式的失效,所以本文还对抽取规则的优化方法作了研究,提出了几种改进的信息定位方法,并且从实际应用的角度,提出几种方法的组合策略,在此基础上可以编写出更为简单、健壮、通用的抽取规则,在实际应用中达到了较高的查准率。

论文目录

摘要

ABSTRACT

1 绪论

1.1 选题背景和意义

1.2 主题搜索引擎简介

1.3 信息抽取技术

1.3.1 信息抽取与信息检索

1.3.2 信息抽取与自动摘要

1.4 本文的研究内容

1.5 本文的组织结构

2 Web 信息抽取技术概述

2.1 Web 信息抽取技术分类

2.2 包装器概念（wrapper）

2.3 wrapper 构建技术的分类

2.4 几种基于HTML 的信息抽取系统

2.4.1 W4F

2.4.2 XWRAP

2.4.3 EXALG

2.4.4 Road Runner

2.4.5 国内的信息抽取研究

2.5 Web 信息抽取存在的问题

2.6 本章小结

3 Web 信息抽取的原理和方法

3.1 XML 相关标准

3.1.1 XML

3.1.2 XHTML

3.1.3 DOM

3.1.4 XPath

3.1.5 XSLT

3.1.6 用Java 进行XSLT 扩展

3.2 系统的设计目标与思路

3.2.1 系统的设计目标

3.2.2 系统设计的基本思路

3.2.3 XML 和XSLT 在系统中的角色

3.3 抽取系统的总体框架

3.4 系统中的知识库与数据库

3.4.1 抽取规则库

3.4.2 抽取结果数据库和Web 页面数据库

3.5 页面优化模块

3.5.1 XHTML 页面转化

3.5.2 页面解析

3.6 信息抽取模块

3.6.1 规则学习的依据

3.6.2 规则学习的步骤

4 抽取规则的优化

4.1 优化问题的提出

4.2 改进的定位方法

4.2.1 路径与内容结合方法

4.2.2 完全基于文本的方法

4.2.3 基于属性的方法

4.2.4 几种方法的比较

4.3 各种方法的组合

4.4 优化的抽取规则

5 倒排索引技术研究

5.1 倒排索引概念

5.2 中文分词技术

6 结论

6.1 总结

6.2 下一步工作

致谢

参考文献

附录

主题搜索引擎的信息抽取和索引的研究

论文摘要

论文目录

相关论文文献

猜你喜欢