论文摘要
随着Internet的迅猛发展,Web已然变成全球化的信息中心,如何快速、准确的从中获取所需信息显得越来越迫切。Web信息抽取技术就是在这样的情况下应运而生的。Web信息抽取技术不但可以从网络中获取用户所需信息,而且还可以将获取的信息作为构建智能查询系统和数据挖掘系统的基础,因此它具有广阔的应用前景。尽管目前已对Web信息抽取技术进行了大量的研究工作,但现有技术仍存在着抽取精度低、自动化程度差、适应能力不强等缺点。本文基于这一背景,以支持向量机(SVM)分类方法作为研究基础,对Web信息抽取进行理论和实践上的探讨,其主要创新点如下:本文针对目前直推式支持向量机在进行大量样本分类时会出现分类准确度低、分类训练时间长的问题,在对比几种已改进直推式支持向量机算法的基础上,提出一种基于增量学习的直推式支持向量机分类算法。将增量学习的思想引入到直推式支持向量机中,同时结合区域多样本标注法则和标签重置法则,在不损失分类精度的前提下,缩短了训练时间,提高了分类速度。考虑到现有网页中通常存在包含有大量与主题无关信息的情况,在对网页进行结构化分析的基础上,本文提出一种基于DOM树的两级噪音过滤算法。通过设置合理的“超链接粒度”,可以有效的保证对子树匹配算法所得出的结果进行噪音相关性的正确判断,从而去掉网页中大量与主题内容无关的信息,缩小DOM树的生成规模,有利于对数据的后继应用。根据基于增量学习的直推式支持向量机分类算法和基于DOM树的两级噪音过滤算法,本文设计了一个基于支持向量机的Web信息抽取系统。该系统以网页生成的DOM树为基础,使用两级噪音过滤算法对网页进行噪音处理,减小网页规模;应用基于增量学习的直推式支持向量机分类算法解决系统中的关键问题,即如何准确和快速的分类抽取出网页中用户所需信息,实现数据的分类抽取。仿真实验的数据表明:该系统在保证抽取高效的同时,其准确率和召回率都可以达到很高的水平。
论文目录
摘要Abstract第一章 绪论1.1 研究背景1.1.1 信息抽取与Web信息抽取1.1.2 与其他相关技术比较1.2 国内外研究现状1.2.1 国外研究现状1.2.2 国内研究现状1.3 本文所要完成的主要工作和结构安排第二章 Web信息抽取与支持向量机2.1 Web信息抽取技术2.1.1 IE发展历史和任务以及过程2.1.2 Web信息抽取技术分类2.1.3 Web信息抽取存在的问题和难点2.1.4 规则的生成与学习方法2.1.5 评价指标2.2 支持向量机基本原理2.2.1 统计学理论2.2.2 最优分类超平面2.2.3 支持向量机原理2.3 本章小结第三章 基于增量学习的直推式支持向量机3.1 监督学习与半监督学习3.1.1 监督学习3.1.2 半监督学习3.2 直推式支持向量机3.2.1 直推式学习3.2.2 直推式支持向量机原理3.2.3 已改进的直推式支持向量机算法3.3 基于增量学习的直推式支持向量机算法3.3.1 支持向量集变化3.3.2 增量学习思想3.3.3 改进后的直推式支持向量机算法3.4 实验结果3.4.1 模拟数据的试验结果3.4.2 真实文本数据的试验结果3.4.3 试验结果讨论3.5 本章小结第四章 基于DOM树的网页噪音过滤算法4.1 HTML预处理的意义及相关工作4.1.1 HTML预处理意义4.1.2 相关工作4.2 基于DOM树的噪音过滤算法4.2.1 HTML文档规范化解析4.2.2 噪音过滤流程4.2.3 算法思想4.2.4 第一阶段噪音去除4.2.5 第二阶段噪音去除4.2.6 算法性能分析4.2.7 噪音信息记录4.3 本章小结第五章 基于SVM的Web信息抽取系统设计及实现5.1 系统总体设计5.1.1 设计目标5.1.2 信息表示模型的选取5.1.3 设计思想5.1.4 系统整体框架5.2 各功能模块详细设计5.2.1 数据准备阶段5.2.2 特征提取模块5.2.3 数据分类抽取模块5.2.4 数据交换阶段5.3 Web信息抽取系统的实现5.3.1 系统模块之间关系5.3.2 网页规范化解析5.3.3 数据分类学习和抽取5.3.4 实验结果与分析5.4 本章小结第六章 结束语6.1 本文总结6.2 对下一步工作的展望参考文献作者简历 攻读硕士学位期间完成的主要工作致谢
相关论文文献
标签:信息抽取论文; 直推式支持向量机论文; 增量学习论文; 分类抽取论文;