基于隐马尔可夫模型的Web信息抽取研究

基于隐马尔可夫模型的Web信息抽取研究

论文题目: 基于隐马尔可夫模型的Web信息抽取研究

论文类型: 硕士论文

论文专业: 计算机应用技术

作者: 俞琰

导师: 何群

关键词: 信息抽取,隐马尔可夫模型,结构树,聚类

文献来源: 南京工业大学

发表年度: 2005

论文摘要: Web信息抽取(Web Information Extraction)是从半结构化的Web海量数据中,按用户要求抽取且形成相关的有效的结构数据处理过程。论文以隐马尔科夫模型(HMM)进行数据抽取中的若干关键问题进行研究。 论文介绍了Web信息抽取出现的背景和发展历史,阐述了Web信息抽取评价标准,剖析了Web信息抽取的典型系统所采用的方法。 在分析了HMM在其它领域应用中的成功和不足之后,提出了基于数据挖掘聚类的模型合并方法生成隐马尔可夫模型,即可根据数据自动生成HMM,同时对一般的隐马尔可夫模型进行了扩展,为每个抽取域生成一个隐马尔可夫模型,用于获取更多的有用信息。 在对于“列表式“信息条目的抽取,论文提出了一种新的信息预处理和定位的方法。实验证明该方法优于一般的方法。 在HMM概率学习方法中,提出了一种改进平滑处理的方法,很好地解决了状态转换中参数的确定问题。 论文在系统设计方面,采用了模型-视图-控制器(Model-View-Controller,简称MVC)设计模式,用ASP.NET实现了这种设计模式。系统分为两个部分:数据训练和数据测试。在数据训练部分,先对Web数据进行预处理、定位的工作,找到我们要抽取的数据所在的大概位置,再根据用户的标注所得到的数据,聚类、合并状态,计算出状态转换概率、观察值概率,得到改进的HMM的结构。在数据测试部分,先对Web数据进行预处理,定位的工作,找到我们要抽取的数据的大概位置。再根据数据测试部分得到的数据字典和HMM结构,用Viterbi算法计算出测试数据的路径和状态,实现数据的抽取。

论文目录:

摘要

ABSTRACT

第一章 绪论

1.1 引言

1.2 论文的主要工作

1.3 论文主要内容

第二章 Web信息抽取技术综述

2.1 Web信息抽取技术的发展历史

2.2 Web信息文本特征

2.2.1 符号特征

2.2.2 关系特征

2.2.3 文本片段特征

2.2.4 文档结构特征

2.3 Web信息抽取的评价标准

2.4 Web信息的抽取途径

2.5 Web信息抽取技术的分类

2.5.1 基于自然语言理解方式的信息抽取

2.5.2 基于ontology方式的信息抽取

2.5.3 基于HTML结构的信息抽取

2.5.4 基于隐马尔可夫模型的信息抽取

2.6 典型系统

2.6.1 ShopBot

2.6.2 WIEN

2.6.3 WHISK

2.6.4 综合分析

2.7 信息抽取存在的问题

第三章 HMM的主要算法

3.1 定义

3.2 组成

3.3 主要算法

3.3.1 前向-后向算法

3.3.2 Viterbi算法

第四章 Web数据预处理及信息源定位

4.1 Web数据源分析

4.2 信息所在区域的确定

4.3 实验结果和结果分析

第五章 HMM概率学习

5.1 学习状态转移概率和观察值概率

5.2 平滑处理(smoothing)

5.2.1 Laplace smoothing方法

5.2.2 Absolute discounting方法

5.2.3 smoothing方法的改进

5.3 实验结果

第六章 基于聚类的HMM结构学习

6.1 学习简单HMM结构

6.2 学习域内HMM结构

6.2.1 聚类

6.2.2 状态合并及模型显示

6.3 实验结果

第七章 系统设计与实现

7.1 系统概览

7.2 系统设计模式

7.2.1 模型-视图-控制器(MVC)设计模式简介

7.2.2 ASP.NET下MVC设计模式的实现

7.3 系统模块实现

7.3.1 模块设计目标

7.3.2 基础模块

7.3.3 定位模块的实现

7.3.4 计算状态转换概率和观察值概率模块的实现

7.3.5 状态聚类合并的实现

7.3.6 利用Viterbi计算路径模块的实现

7.4 主要界面

第八章 总结与展望

参考文献

攻读学位期间成果

致谢

发布时间: 2007-03-23

参考文献

  • [1].基于条件随机域的Web信息抽取研究[D]. 朱道辉.南华大学2010
  • [2].Web应用程序跨站脚本漏洞检测技术研究与实现[D]. 马富天.江南大学2018
  • [3].Web应用漏洞的检测方法研究与实现[D]. 许苗华.中南林业科技大学2018
  • [4].基于改进模糊测试的Web漏洞挖掘算法研究[D]. 陆紫光.广西大学2018
  • [5].基于OPC的工业设备Web监测系统设计与开发[D]. 赵策.浙江工业大学2017
  • [6].基于Web的食品安全管理信息系统的设计[D]. 费习函.吉林大学2018
  • [7].基于扩展Web技术的跨设备交互框架的研究与实现[D]. 李齐雨.西北大学2018
  • [8].基于Web的电网巡视管理系统的设计与实现[D]. 易文丽.湖南大学2016
  • [9].GPU加速的Web应用漏洞检测技术研究与实现[D]. 李绍滔.湖南大学2016
  • [10].基于Web的酒店管理系统的设计与实现[D]. 张会罡.东北大学2016

相关论文

  • [1].基于隐马尔可夫模型的Web文本挖掘技术研究[D]. 邹腊梅.南华大学2007
  • [2].隐马尔可夫模型在信息抽取中的应用研究[D]. 王宇宁.大连理工大学2007
  • [3].Web信息自动抽取技术研究[D]. 贺智平.西安电子科技大学2006
  • [4].Web信息抽取系统SEU-WIE设计与实现[D]. 于媛.东南大学2006
  • [5].基于语义的Web信息抽取系统的研究与设计[D]. 刘旭彤.暨南大学2006
  • [6].信息集成中Web信息抽取技术的研究[D]. 江佳.西安电子科技大学2007
  • [7].基于TABLE布局和隐马尔可夫模型的Web自由文本信息抽取[D]. 陈枫.浙江大学2007
  • [8].基于隐马尔可夫模型的文本信息抽取算法研究[D]. 刘云中.湖南大学2004
  • [9].隐马尔可夫模型的原理及其应用[D]. 杜世平.四川大学2004
  • [10].信息抽取算法研究[D]. 吴芬芬.吉林大学2006

标签:;  ;  ;  ;  

基于隐马尔可夫模型的Web信息抽取研究
下载Doc文档

猜你喜欢