面向领域网页的语义标注若干问题研究

面向领域网页的语义标注若干问题研究

论文摘要

为网页增加语义元数据信息,将Web页面转化为机器可理解的语义描述形式属于语义标注研究范畴。这一研究不仅对于语义Web远景早日实现至关重要,也对当今Web中各类自动化应用性能的提高具有重要作用。本文作者在深入分析前人工作的基础上,综合运用语义Web、本体构建、自然语言处理、机器学习和Web挖掘等多个领域的知识和方法,开展了“面向领域网页的语义标注”研究工作,主要研究内容包括:1.对语义标注研究及相关技术进行了全面的分析和总结。2.在综合现有本体构建方法的基础上,提出了一个以研究需求为驱动,支持研究组在分布式环境中开展工作的四阶段本体构建方法。3.针对知网2000免费版(简称为HowNet)编程开发接口缺失的现状和项目开发的需求,利用逆向工程技术,给出了一个获取HowNet编程开发接口的技术解决方案,并将获得的接口应用到实验中。4.提出了一个在领域本体指导下,综合运用统计学方法和自然语言处理(NLP)技术对中文自然语言Web文档进行语义标注的方法框架。框架分为数据准备阶段、识别阶段和组合阶段。在数据准备阶段利用特征抽取方法构建领域词汇表,并形成类型标注表;在识别阶段提出显式类型标注算法,识别文本中的实例和属性;在组合阶段提出基于依存树的关系抽取算法和基于依存森林的关系抽取算法,完成关系抽取。此外,还给出了一个基于影响度函数的主动学习方法以交互提问方式来提高标注性能。5.提出了基于句子频繁特征模式挖掘的语义标注方法框架,包括数据预处理、模式挖掘和规则处理三个阶段。在数据预处理阶段提出特征句提取算法和特征序列生成算法;在模式挖掘阶段提出基于后缀数组的句子频繁特征模式挖掘算法;在规则处理阶段利用挖掘得到的特征模式来编写标注规则,并将规则应用到语义标注过程中。本文研究依托国家自然科学基金重大项目“非规范知识的基本理论和核心技术”之开放课题“第二代浏览器原型研究”(60496321),目前研究成果已应用到原型系统CRAB中。

论文目录

  • 提要
  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 万维网现状
  • 1.1.1 万维网发展
  • 1.1.2 万维网的不足
  • 1.2 语义Web
  • 1.2.1 语义Web远景
  • 1.2.2 语义Web技术架构
  • 1.2.3 语义Web知识处理过程
  • 1.2.4 当今Web和语义Web间的差距
  • 1.3 语义标注
  • 1.3.1 语义和标注
  • 1.3.2 标注的分类和发展
  • 1.3.3 语义标注研究综述
  • 1.4 本文研究工作
  • 1.4.1 面向领域网页的语义标注
  • 1.4.2 本文的组织
  • 第2章 领域本体构建
  • 2.1 本体
  • 2.1.1 本体形式化定义
  • 2.1.2 本体描述语言
  • 2.2 领域本体构建
  • 2.2.1 本体构建方法综述
  • 2.2.2 本文方法
  • 2.2.3 实验
  • 2.3 知网2000函数接口提取
  • 2.3.1 引言
  • 2.3.2 方法介绍
  • 2.3.3 相关技术
  • 2.3.4 实验
  • 2.4 本章小结
  • 第3章 中文网页语义标注:从句子到RDF表示
  • 3.1 引言
  • 3.2 方法框架
  • 3.3 数据准备
  • 3.3.1 领域网页收集和预处理
  • 3.3.2 领域词汇表构建
  • 3.4 识别阶段
  • 3.5 组合阶段
  • 3.5.1 依存关系
  • 3.5.2 关系抽取
  • 3.6 实验
  • 3.7 主动学习思想的引入
  • 3.8 本章小结
  • 第4章 基于句子频繁特征模式挖掘的语义标注
  • 4.1 引言
  • 4.2 方法框架
  • 4.2.1 序列模式挖掘
  • 4.2.2 框架介绍
  • 4.3 数据预处理
  • 4.3.1 特征句提取
  • 4.3.2 特征序列生成
  • 4.4 模式挖掘
  • 4.4.1 后缀数组
  • 4.4.2 句子频繁特征模式挖掘
  • 4.5 规则处理
  • 4.6 实验
  • 4.7 本章小结
  • 第5章 总结与展望
  • 5.1 总结
  • 5.2 未来工作
  • 参考文献
  • 作者简介及在学期间所取得的科研成果
  • 致谢
  • 相关论文文献

    • [1].图像语义标注研究综述[J]. 图书馆学研究 2017(18)
    • [2].面向文本文档的语义标注研究综述[J]. 情报学报 2014(04)
    • [3].一种文本输入时语义标注系统的实现[J]. 福建电脑 2017(02)
    • [4].矿山语义物联网自动语义标注方法[J]. 工矿自动化 2020(03)
    • [5].面向主题模型的主题自动语义标注研究综述[J]. 数据分析与知识发现 2019(09)
    • [6].最大熵模型在音乐自动语义标注中的应用研究[J]. 电子测量技术 2014(12)
    • [7].服务的业务级描述及其语义标注方法[J]. 计算机应用研究 2008(05)
    • [8].贺胜:《现代汉语深度语义标注研究》[J]. 南京师范大学文学院学报 2020(01)
    • [9].源代码变量名的自动语义标注[J]. 计算机应用研究 2016(11)
    • [10].视频语义标注研究及原型实现[J]. 中国新通信 2013(06)
    • [11].Web2.0环境下走向语义标注的Folksonomy研究[J]. 中国科技信息 2009(14)
    • [12].基于纹理信息的室内场景语义标注学习方法[J]. 计算机应用 2018(12)
    • [13].叙事型图像语义标注模型研究[J]. 中国图书馆学报 2017(05)
    • [14].基于潜在主题融合的跨媒体图像语义标注[J]. 电子学报 2014(05)
    • [15].基于框架语义标注的自由文本信息抽取研究[J]. 计算机工程与应用 2008(25)
    • [16].数字图像语义标注模型比较与分析[J]. 图书情报工作 2018(06)
    • [17].社交媒体的语义标注应用现状研究[J]. 图书与情报 2013(05)
    • [18].基于模糊理论的场景图像情感语义标注方法研究[J]. 重庆师范大学学报(自然科学版) 2014(02)
    • [19].非物质文化遗产视频语义标注方法研究[J]. 情报科学 2018(11)
    • [20].一种基于实例的图像自动语义标注方法[J]. 哈尔滨理工大学学报 2009(01)
    • [21].基于语义标注的数据资源库元数据质量自动评估方法研究[J]. 计算机应用与软件 2018(06)
    • [22].结合深度特征与多标记分类的图像语义标注[J]. 计算机辅助设计与图形学学报 2018(02)
    • [23].基于上下文相关模型的图像语义标注[J]. 小型微型计算机系统 2016(04)
    • [24].科学论文语义标注框架的设计与应用[J]. 情报理论与实践 2020(03)
    • [25].基于分类融合和关联规则挖掘的图像语义标注[J]. 计算机工程与科学 2018(05)
    • [26].基于新闻语料库的越南语框架语义标注研究[J]. 中文信息学报 2013(06)
    • [27].基于RIA的视频语义标注系统研究与开发[J]. 计算机与数字工程 2012(11)
    • [28].基于减少语义标注偏差的语义Web服务发现(英文)[J]. Journal of Southeast University(English Edition) 2010(01)
    • [29].顾及地理语境的旅游轨迹停留点语义标注[J]. 测绘通报 2019(06)
    • [30].采用特征识别技术的MBD模型自动语义标注方法[J]. 华侨大学学报(自然科学版) 2018(05)

    标签:;  ;  ;  ;  ;  ;  ;  

    面向领域网页的语义标注若干问题研究
    下载Doc文档

    猜你喜欢