
论文摘要
随着互联网的高速发展,Web已经成为这个世界上最大的信息来源。如何获取有用的Web信息则是大家面临的共同问题,Web信息抽取就是针对这一问题而提出的。目前大部分信息抽取仅停留在对纯文本的信息抽取上,还并未考虑网页文本的特殊性。另外,信息抽取也很少涉及语义的理解。目前,信息抽取常用的模型是隐马尔可夫模型,它因易于建立、适应性强、抽取精度高等优点而日益受到研究者的关注,但该模型仅适用于普通文本,对含有更多其他信息的网页来说也并不合适。通过对网页的分析,Web文本信息通常包含更多输出属性比如:词条,版面以及格式属性。考虑到传统隐马尔可夫模型的状态转移过程中仅将单一词条属性作为观测输出特征,我们将多重属性(包括词条,版面以及格式属性)作为隐马尔可夫模型观测输出特征,从而引入广义隐马尔可夫模型。对于纯文本,传统的HMM是以单一语句为信息抽取的基本单位,其假设的状态转移序列(从左到右,然后从上到下)对含有多媒体的二维空间的网页来说也并不合适。通过对网页的分析,我们发现网页的视觉版面结构由不同的块组成,而且这些块之间还有一定的逻辑关系。本文利用基于可视化的网页分割算法(VIPS)对网页进行分块,得到一种更适用于网页的基于版面结构的状态转移序列。由于任一时刻出现的观测输出矢量概率不仅依赖于系统当前状态,而且依赖于系统在前一时刻所处的状态,所以本文提出了基于二阶Markov链的改进的广义隐马尔可夫模型。另外,针对网页的语意分析,本文采用了一种基于角色标注的命名实体识别方法,其基本思想是:针对网页文本,结合角色表的规则,采用改进广义隐马尔可夫模型进行角色标注,在角色序列的基础上,进行字符串识别,最终实现命名实体的识别,进而实现了从Web网页的结构及语义两方面对信息的抽取。本文通过对当前招聘网站上海量的招聘信息进行定题Web信息挖掘和信息抽取,开发了基于GHMM的Web文本的抽取系统WebIE。本文首先介绍了Web文本信息抽取技术的基本概念,然后通过对Web页面的分析,根据Web页面的特点并结合角色标注的实体识别技术,从Web页面结构和语义两方面,应用改进的GHMM模型对Web信息进行抽取。最后,通过实验说明改进的广义隐马尔可夫对于网页信息抽取有很好的效果,同时也提出了系统的不足和未来的发展研究方向。
论文目录
摘要Abstract第一章 绪论1.1 课题背景1.2 Web 信息抽取技术的发展与现状1.3 论文的研究内容1.4 论文的组织结构第二章 Web 信息抽取技术2.1 信息抽取技术综述2.1.1 信息抽取技术概念2.1.2 信息抽取的分类2.2 信息抽取的常用方法2.2.1 基于自然语言处理方式的信息抽取2.2.2 包装器归纳方式的信息抽取2.2.3 基于ontology 方式的信息抽取2.2.4 基于HTML 结构的信息抽取2.2.5 基于Web 查询的信息抽取2.3 Web 信息抽取存在的问题2.4 Web 信息抽取体系结构2.5 小结第三章Web 页面分析3.1 HTML 格式分析3.2 Web 页面的特点3.2.1 网页的内容块分析3.2.2 Web 页面多重属性的分析3.2.3 Web 版面结构的发现算法3.3 网页的去重处理3.3.1 网页的特征表示3.3.2 一种改进的权重计算方法3.3.3 网页的特征提取3.3.4 相似距离计算3.4 小结第四章 改进的广义隐马尔可夫模型4.1 HMM 模型描述4.1.1 模型的定义4.2 三个基本问题的提出4.2.1 解码问题4.2.2 学习问题4.3 HMM 命名实体中的应用4.4 广义隐马尔可夫模型4.4.1 GHMM 的定义4.4.2 GHMM 模型的改进算法4.5 小结第五章 基于改进的 GHMM 的信息抽取5.1 介绍5.1.1 命名实体识别的定义5.1.2 命名实体识别的难点5.2 命名实体识别的流程5.3 预处理阶段5.4 角色的标注5.4.1 角色表的建立5.4.2 角色的标注算法5.4.3 改进的角色自动抽取5.5 基于 GHMM 信息提取的步骤5.6 小结第六章 系统的设计与实现6.1 Web 信息抽取系统6.1.1 系统设计目标6.1.2 WebIE 系统的框架6.1.3 系统的功能模块6.2 主要模块的实现6.3 网页预处理流程6.3.1 检索与查询的实现6.3.2 获取招聘网页信息6.3.3 Web 招聘信息网页进行清理、过滤6.3.4 分词和过滤6.4 GHMM 的实体识别代码实现6.4.1 机构名称识别训练算法6.4.2 机构名称识别算法6.5 系统的数据库设计6.5.1 数据库的系统结构6.5.2 数据库的实现6.6 Web 信息抽取系统的实现6.6.1 Web 页面的概述6.6.2 系统运行效果图6.7 信息抽取系统的评估标准6.8 实验结果6.9 小结第七章 系统的总结与展望7.1 论文的特色之处7.2 系统存在的问题与改进7.3 未来技术发展趋势致谢参考文献在读期间发表的学术论文
相关论文文献
标签:数据挖掘论文; 信息抽取论文; 广义隐马尔可夫模型论文; 命名实体识别论文;
基于GHMM的Web文本信息抽取技术研究与系统设计
下载Doc文档