论文摘要
随着电子商务的飞速发展,大量的商品信息不断涌现在电子商务网站上,要想获取一条有用的商品信息难度越来越大。面向特定行业,抽取并合理保存这些商品信息,对于帮助人们快速获取所需的信息或作为企业竞争情报系统的情报来源,具有重要的意义。由于Web上的商品信息大多是以HTML文档的形式存在,而HTML把信息的内容和表现混合在一起,无法直接进行处理,因而必须使用Web信息抽取和存储技术,获取这些商品信息。本文分析了相邻重复模式在后缀树中具有的特征,提出一种基于后缀树的模式发现算法,采用两次构造后缀树来发现相邻重复模式。针对Web商品信息发布绝大部分是基于后台数据库,网页中大量商品信息记录往往以重复的HTML结构而进行有规律的组织,从而形成一致的表现形式的特点,首先获取样本页面DOM对象所有叶节点的XPath路径表达式,组成一个有序列表,把列表转换为一个词字符串,应用模式发现算法得到所需的相邻重复模式,进而获得抽取区域和抽取规则的XPath路径表达式,在此基础上提出一个信息抽取系统框架。把提出的模式发现算法应用于对Web商品信息抽取规则的获取,通过实验证明是正确和有效的。在信息抽取器的设计中,把抽取规则与网络蜘蛛结合,网络蜘蛛只把含有指定XPath路径表达式的页面交给抽取器处理;针对陶瓷行业商品种类繁多,商品间关系复杂,各个网站对商品的分类标准不完全一致的情况,提出用本体来解决入库问题。采用Eclipse开发工具、SWT Designer插件和JDK5.0,初步完成了一个面向陶瓷行业的Web信息抽取系统。