基于SVM的Web信息抽取技术研究

基于SVM的Web信息抽取技术研究

论文摘要

随着Internet的迅猛发展,Web已然变成全球化的信息中心,如何快速、准确的从中获取所需信息显得越来越迫切。Web信息抽取技术就是在这样的情况下应运而生的。Web信息抽取技术不但可以从网络中获取用户所需信息,而且还可以将获取的信息作为构建智能查询系统和数据挖掘系统的基础,因此它具有广阔的应用前景。尽管目前已对Web信息抽取技术进行了大量的研究工作,但现有技术仍存在着抽取精度低、自动化程度差、适应能力不强等缺点。本文基于这一背景,以支持向量机(SVM)分类方法作为研究基础,对Web信息抽取进行理论和实践上的探讨,其主要创新点如下:本文针对目前直推式支持向量机在进行大量样本分类时会出现分类准确度低、分类训练时间长的问题,在对比几种已改进直推式支持向量机算法的基础上,提出一种基于增量学习的直推式支持向量机分类算法。将增量学习的思想引入到直推式支持向量机中,同时结合区域多样本标注法则和标签重置法则,在不损失分类精度的前提下,缩短了训练时间,提高了分类速度。考虑到现有网页中通常存在包含有大量与主题无关信息的情况,在对网页进行结构化分析的基础上,本文提出一种基于DOM树的两级噪音过滤算法。通过设置合理的“超链接粒度”,可以有效的保证对子树匹配算法所得出的结果进行噪音相关性的正确判断,从而去掉网页中大量与主题内容无关的信息,缩小DOM树的生成规模,有利于对数据的后继应用。根据基于增量学习的直推式支持向量机分类算法和基于DOM树的两级噪音过滤算法,本文设计了一个基于支持向量机的Web信息抽取系统。该系统以网页生成的DOM树为基础,使用两级噪音过滤算法对网页进行噪音处理,减小网页规模;应用基于增量学习的直推式支持向量机分类算法解决系统中的关键问题,即如何准确和快速的分类抽取出网页中用户所需信息,实现数据的分类抽取。仿真实验的数据表明:该系统在保证抽取高效的同时,其准确率和召回率都可以达到很高的水平。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 信息抽取与Web信息抽取
  • 1.1.2 与其他相关技术比较
  • 1.2 国内外研究现状
  • 1.2.1 国外研究现状
  • 1.2.2 国内研究现状
  • 1.3 本文所要完成的主要工作和结构安排
  • 第二章 Web信息抽取与支持向量机
  • 2.1 Web信息抽取技术
  • 2.1.1 IE发展历史和任务以及过程
  • 2.1.2 Web信息抽取技术分类
  • 2.1.3 Web信息抽取存在的问题和难点
  • 2.1.4 规则的生成与学习方法
  • 2.1.5 评价指标
  • 2.2 支持向量机基本原理
  • 2.2.1 统计学理论
  • 2.2.2 最优分类超平面
  • 2.2.3 支持向量机原理
  • 2.3 本章小结
  • 第三章 基于增量学习的直推式支持向量机
  • 3.1 监督学习与半监督学习
  • 3.1.1 监督学习
  • 3.1.2 半监督学习
  • 3.2 直推式支持向量机
  • 3.2.1 直推式学习
  • 3.2.2 直推式支持向量机原理
  • 3.2.3 已改进的直推式支持向量机算法
  • 3.3 基于增量学习的直推式支持向量机算法
  • 3.3.1 支持向量集变化
  • 3.3.2 增量学习思想
  • 3.3.3 改进后的直推式支持向量机算法
  • 3.4 实验结果
  • 3.4.1 模拟数据的试验结果
  • 3.4.2 真实文本数据的试验结果
  • 3.4.3 试验结果讨论
  • 3.5 本章小结
  • 第四章 基于DOM树的网页噪音过滤算法
  • 4.1 HTML预处理的意义及相关工作
  • 4.1.1 HTML预处理意义
  • 4.1.2 相关工作
  • 4.2 基于DOM树的噪音过滤算法
  • 4.2.1 HTML文档规范化解析
  • 4.2.2 噪音过滤流程
  • 4.2.3 算法思想
  • 4.2.4 第一阶段噪音去除
  • 4.2.5 第二阶段噪音去除
  • 4.2.6 算法性能分析
  • 4.2.7 噪音信息记录
  • 4.3 本章小结
  • 第五章 基于SVM的Web信息抽取系统设计及实现
  • 5.1 系统总体设计
  • 5.1.1 设计目标
  • 5.1.2 信息表示模型的选取
  • 5.1.3 设计思想
  • 5.1.4 系统整体框架
  • 5.2 各功能模块详细设计
  • 5.2.1 数据准备阶段
  • 5.2.2 特征提取模块
  • 5.2.3 数据分类抽取模块
  • 5.2.4 数据交换阶段
  • 5.3 Web信息抽取系统的实现
  • 5.3.1 系统模块之间关系
  • 5.3.2 网页规范化解析
  • 5.3.3 数据分类学习和抽取
  • 5.3.4 实验结果与分析
  • 5.4 本章小结
  • 第六章 结束语
  • 6.1 本文总结
  • 6.2 对下一步工作的展望
  • 参考文献
  • 作者简历 攻读硕士学位期间完成的主要工作
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于SVM的Web信息抽取技术研究
    下载Doc文档

    猜你喜欢