一种模式发现算法及其Web信息抽取应用

论文摘要

随着电子商务的飞速发展,大量的商品信息不断涌现在电子商务网站上,要想获取一条有用的商品信息难度越来越大。面向特定行业,抽取并合理保存这些商品信息,对于帮助人们快速获取所需的信息或作为企业竞争情报系统的情报来源,具有重要的意义。由于Web上的商品信息大多是以HTML文档的形式存在,而HTML把信息的内容和表现混合在一起,无法直接进行处理,因而必须使用Web信息抽取和存储技术,获取这些商品信息。本文分析了相邻重复模式在后缀树中具有的特征,提出一种基于后缀树的模式发现算法,采用两次构造后缀树来发现相邻重复模式。针对Web商品信息发布绝大部分是基于后台数据库,网页中大量商品信息记录往往以重复的HTML结构而进行有规律的组织,从而形成一致的表现形式的特点,首先获取样本页面DOM对象所有叶节点的XPath路径表达式,组成一个有序列表,把列表转换为一个词字符串,应用模式发现算法得到所需的相邻重复模式,进而获得抽取区域和抽取规则的XPath路径表达式,在此基础上提出一个信息抽取系统框架。把提出的模式发现算法应用于对Web商品信息抽取规则的获取,通过实验证明是正确和有效的。在信息抽取器的设计中,把抽取规则与网络蜘蛛结合,网络蜘蛛只把含有指定XPath路径表达式的页面交给抽取器处理;针对陶瓷行业商品种类繁多,商品间关系复杂,各个网站对商品的分类标准不完全一致的情况,提出用本体来解决入库问题。采用Eclipse开发工具、SWT Designer插件和JDK5.0,初步完成了一个面向陶瓷行业的Web信息抽取系统。

论文目录

摘要

Abstract

1 绪论

1.1 选题背景

1.2 国内外相关技术发展与研究现状

1.3 本论文的主要研究内容

1.4 论文结构安排

2 Web信息抽取技术概述

2.1 Web信息抽取技术

2.2 Web信息抽取分类

2.3 信息抽取技术的主要任务

3 相关技术

3.1 HTML（Hyper Text Markup Language）

3.2 XML

3.3 XHTML

3.4 DOM（Document Object Model）

3.5 XPath（XML Path Language）

3.6 HTTP超文本传输协议

3.7 代理

3.8 HTTPClient

4 模式发现算法和抽取规则获取

4.1 模式发现的经典算法

4.2 后缀树和后缀树算法

4.3 重复模式发现算法

4.4 HTML页面重复模式发现的过程

4.5 信息抽取规则

4.6 实验分析

5 陶瓷行业商品信息抽取系统

5.1 抽取器的整体设计

5.2 抽取的流程

5.3 Web浏览器

5.4 抽取规则产生模块

5.5 网络蜘蛛模块

5.6 数据抽取模块

5.7 数据集成模块

5.8 系统配置和管理模块

6 总结与展望

6.1 研究成果

6.2 创新点

6.3 存在的不足及今后进一步研究内容

致谢

参考文献

附录A:硕士期间发表的论文

一种模式发现算法及其Web信息抽取应用

论文摘要

论文目录

相关论文文献

猜你喜欢