基于本体的Web生物数据获取技术的研究

基于本体的Web生物数据获取技术的研究

论文题目: 基于本体的Web生物数据获取技术的研究

论文类型: 硕士论文

论文专业: 计算机应用

作者: 成瑜

导师: 何洁月

关键词: 本体,信息检索,信息抽取,文档对象模型,特征短语

文献来源: 东南大学

发表年度: 2005

论文摘要: 随着互联网和生物信息的飞速发展,即时发现新的生物信息数据源来进行研究变得非常重要。传统的基于关键词的搜索引擎由于忽视了关键词本身所含的语义信息而得到较低的查全率和查准率,变得越来越不适应这种需求。此外Web已经发展成为一个巨大的、分布和共享的信息资源,但目前Web数据大多以HTML形式出现,其特点使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息抽取技术。本文在研究了语义Web和本体Ontology技术,以及信息检索和半结构化Web信息抽取技术总体解决方案的基础上,着重研究了Web生物信息数据源的发现以及生物信息数据抽取的实现技术。在Web生物信息数据源发现的实现部分,提出了基于本体和特征短语的生物信息数据源发现的检索系统。在Web信息抽取的实现部分,提出了由本体驱动,并根据文档结构和特征匹配来进行信息定位和信息抽取的方法,建立了一个用户指导的交互式信息抽取原型系统。该系统首先获取指定的Web页面,并且利用HTML JTidy将其转换为格式良好的XML文档,然后利用XML解析器将该XML文档转化为DOM树,根据用户指定XPath表达式获取感兴趣的数据块,并通过OntPMatch算法实现数据的抽取,将结果保存为结构化的形式。论文工作实现了Web生物信息数据源的发现以及Web生物信息数据抽取原型系统,更加方便用户发现有价值的Web信息资源,同时也为充分使用Web上的海量数据提供了一个有效的工具。

论文目录:

摘要

ABSTRACT

第1章 绪言

1.1 研究背景

1.2 研究目标

1.3 研究现状

1.4 本文研究内容

1.5 本文组织结构

第2章 语义WEB及相关技术

2.1 语义Web

2.2 本体概念的提出

2.3 HTTP和XML技术在数据获取中的应用

2.3.1 HTTP技术

2.3.2 HTML与WEB网页

2.3.3 XML相关技术

2.3.4 HTTP和XML技术在本文中的应用

第3章 本体论概述

3.1 本体描述语言

3.1.1 XML和RDF/RDF(s)

3.1.2 OWL

3.2 本体的分类

3.3 本体描述的概念间各种关系

3.4 本体的应用

3.4.1 本体Ontology在信息系统中的应用

3.4.2 本体Ontology在语义Web中的应用

3.5 本体在本文的作用

第4章 Web信息检索和抽取概述

4.1 Web信息检索

4.1.1 信息检索

4.1.2 向量空间模型

4.1.3 搜索引擎介绍

4.1.4 元搜索引擎

4.1.5 本文信息检索的特点

4.2 半结构化Web生物数据的抽取

4.2.1 半结构化数据

4.2.2 半结构化Web生物数据特点

4.2.3 Web信息抽取介绍

4.2.4 本文信息抽取的特点

第5章 Web生物数据获取设计和实现

5.1 Web生物数据获取(BIR&E)系统概述

5.2 Web生物数据源检索(BIR)系统的设计与实现

5.2.1 BIR系统架构

5.2.2 基因调控本体的建立

5.2.3 特征短语提取

5.2.4 相似度计算

5.2.5 BIR系统检索实例

5.3 Web生物数据抽取系统(BIE)的设计与实现

5.3.1 BIE系统需求分析

5.3.2 BIE系统基本任务

5.3.3 BIE系统架构

5.3.4 BIE系统设计流程

5.3.5 代理设置

5.3.6 数据源的访问

5.3.7 数据块的定位

5.3.8 数据项的抽取

5.3.9 BIE系统实现类图

5.3.10 BIE系统实现数据项抽取界面

第6章 总结与展望

6.1 本文总结

6.2 不足之处和展望

致谢

参考文献

附录

文章发表情况

参与项目情况

发布时间: 2007-06-11

参考文献

  • [1].基于HTML的Web信息抽取技术的研究与应用[D]. 于立艳.哈尔滨工程大学2011
  • [2].Web信息抽取技术研究[D]. 王花.西北农林科技大学2010
  • [3].web信息抽取技术研究与应用[D]. 贾璐璐.北京邮电大学2014
  • [4].基于HTML的WEB就业信息抽取技术研究[D]. 戴慧敏.湖南工业大学2013
  • [5].Web信息抽取技术的研究与应用[D]. 钱浩.东北石油大学2011
  • [6].半结构化Web信息抽取技术及其应用研究[D]. 董树明.东南大学2004
  • [7].基于聚类算法的Web信息抽取技术研究[D]. 邱韬奋.暨南大学2011
  • [8].基于Web的信息抽取技术研究[D]. 王旭东.西南交通大学2008
  • [9].基于语义标记的Web信息抽取技术研究[D]. 夏佳.沈阳航空航天大学2012
  • [10].基于领域本体Web信息采集的研究[D]. 崔立波.长春工业大学2011

相关论文

  • [1].生物医学本体匹配与集成技术的研究[D]. 徐培刚.哈尔滨工业大学2007
  • [2].生物信息平台构建及序列比对算法研究[D]. 孙荣荣.西南大学2008
  • [3].DrSNPGrid中基于本体的生物信息集成技术研究[D]. 陈坚.东南大学2006
  • [4].基于本体的Web服务描述、查找和选取研究[D]. 王建立.西安电子科技大学2007
  • [5].本体驱动的语义查询系统的设计实现[D]. 于水明.大连海事大学2007
  • [6].基于本体的XML信息集成系统设计及其关键技术研究[D]. 陈巍.东南大学2005
  • [7].本体构建与语义集成研究[D]. 黄伟.东南大学2005
  • [8].基于本体的公共交通领域智能信息检索研究[D]. 杨小佳.大连海事大学2007
  • [9].基于XML的生物数据的组织与处理[D]. 罗芳.中南大学2007
  • [10].基于本体的Web非规范知识处理中采集技术研究[D]. 周应强.昆明理工大学2005

标签:;  ;  ;  ;  ;  

基于本体的Web生物数据获取技术的研究
下载Doc文档

猜你喜欢