基于语义的Web信息抽取方法的研究与应用

基于语义的Web信息抽取方法的研究与应用

论文摘要

万维网是世界上最大的公共信息知识库之一,包含了海量的信息。如何高效地从大量网页中抽取出用户期望的信息,是信息工程领域的研究重点。目前在Web上的信息抽取基本上是基于关键字或HTML样式进行判断,找出含有该关键字或符合目标样式的结果集进行计算、索引和排序。这些方法都是基于语法的模式匹配,在关键字或HTML样式发生变化时,无法自适应的更改搜索规则;另一方面,搜索引擎难以理解搜索项的语义及每个网页中所包含信息的含义,它只能找出可能的相关信息,最后依然需要人工筛选和处理。搜索引擎很难通过语义搜索Web信息,主要是因为Web上大多数信息是以人类用户可读和可理解的形式存在的。因此设计出正确有效的信息抽取方法,已成为解决上述问题的关键。对信息抽取方法研究,本文完成了如下工作:①对HTML文档到XML文档转换方法作了对比分析,在转换中引入了语义相似度计算,改进了的基于链表的转换方法,提高了文档转换的准确率。②针对信息提取中易出现的语义歧义问题,利用本体学习方法和Protégé建模工具,构建了一个期货领域本体。③在传统语义相似度算法的基础上,对语义相似度算法做了改进,提出了基于层次系数和的相似度算法,提高了相似度计算的准确度。④基于上述方法,提出了基于语义的Web信息抽取方法,并验证了其方法的正确性。⑤设计并实现了基于语义的Web信息抽取系统,通过应用于期货持仓的良好效果验证了本文抽取方法的可行性和有效性。

论文目录

  • 摘要
  • 英文摘要
  • 1 绪论
  • 1.1 选题背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文主要工作
  • 1.4 论文结构
  • 2 相关技术分析
  • 2.1 Web 信息抽取技术
  • 2.2 XML 相关技术
  • 2.3 本体
  • 2.4 本体描述语言OWL
  • 2.5 本章小结
  • 3 基于语义的 Web 信息抽取算法研究
  • 3.1 问题描述与算法思想
  • 3.2 HTML 到XML 转换算法
  • 3.2.1 HTML 与XML 的结构分析
  • 3.2.2 HTML 到XML 的转换原理
  • 3.2.3 XML 转换算法的分析与设计
  • 3.2.4 表格数据转换算法分析
  • 3.3 领域本体构建的研究
  • 3.3.1 期货领域本体的构建方法分析
  • 3.3.2 领域需求分析
  • 3.3.3 期货领域本体建立
  • 3.4 语义相似度计算方法研究
  • 3.4.1 现有相似度计算方法分析
  • 3.4.2 改进后的层次相似度计算方法
  • 3.5 本章小结
  • 4 基于语义的 Web 信息的抽取系统的设计
  • 4.1 系统框架原型
  • 4.2 XML 处理模块设计
  • 4.2.1 XML 文档解析方法分析
  • 4.2.2 基于DOM4J 的XML 文档解析模块设计
  • 4.3 本体解析模块设计
  • 4.3.1 Jena 框架结构分析
  • 4.3.2 基于Jena 的本体文件的解析模块设计
  • 4.4 基于领域本体的语义信息抽取模块设计
  • 4.4.1 XML 树模型和RDF 图模型分析
  • 4.4.2 语义抽取算法设计
  • 4.4.3 语义信息的存储模块设计
  • 4.5 本章小结
  • 5 系统的实现以及在持仓分析模块中的应用
  • 5.1 转换功能的实现
  • 5.2 信息抽取功能的实现
  • 5.3 实验结果分析
  • 5.3.1 算法实验结果分析
  • 5.3.2 应用实验结果分析
  • 5.4 在持仓分析中的应用
  • 5.5 本章小结
  • 6 结论与展望
  • 6.1 结论
  • 6.2 工作展望
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    • [1].基于谱顶层分割的网络社区层次抽取方法[J]. 计算机系统应用 2020(01)
    • [2].融合门控机制的远程监督关系抽取方法[J]. 北京大学学报(自然科学版) 2020(01)
    • [3].生物医学语义关系抽取方法综述[J]. 图书馆论坛 2017(06)
    • [4].基于最大熵的越南语新闻事件元素抽取方法[J]. 数据采集与处理 2017(04)
    • [5].两种转换波共转换点道集抽取方法的对比分析与应用[J]. 岩性油气藏 2013(06)
    • [6].结合百科知识与句子语义特征的关系抽取方法[J]. 计算机科学 2020(S1)
    • [7].融入多特征的汉越新闻观点句抽取方法[J]. 中文信息学报 2019(11)
    • [8].面向中文产品评论的完整评价对象抽取方法[J]. 计算机工程 2017(06)
    • [9].一种基于时空分析的事件抽取方法[J]. 国外电子测量技术 2017(06)
    • [10].实体-属性抽取简介[J]. 电脑知识与技术 2019(33)
    • [11].基于深度学习的作战文书事件抽取方法[J]. 信息工程大学学报 2019(05)
    • [12].一种改进的基于核心句的评价搭配抽取方法[J]. 计算机工程 2015(02)
    • [13].基于多头注意力机制的人物关系抽取方法[J]. 成都工业学院学报 2020(01)
    • [14].基于相似义原和依存句法的政外领域事件抽取方法[J]. 计算机工程与科学 2020(09)
    • [15].结合主题分布与统计特征的关键词抽取方法[J]. 计算机工程 2017(07)
    • [16].基于知乎的热点话题信息抽取方法研究[J]. 信息通信 2015(12)
    • [17].一种面向文本的概念抽取方法的研究[J]. 计算机应用与软件 2009(09)
    • [18].基于半监督条件随机场的信息抽取方法[J]. 信息与电脑(理论版) 2020(10)
    • [19].基于文本化简的实体属性抽取方法[J]. 计算机工程与应用 2020(21)
    • [20].基于代码克隆检测的抽取方法重构模式识别[J]. 计算机应用与软件 2019(09)
    • [21].基于唯一标识符的小范围均衡随机抽取方法[J]. 电子设计工程 2018(15)
    • [22].面向领域概念的语义关系抽取方法[J]. 中国传媒大学学报(自然科学版) 2017(03)
    • [23].网络游记中地方热度特产信息的抽取方法研究[J]. 微型电脑应用 2017(10)
    • [24].关系抽取方法研究[J]. 电子技术 2009(04)
    • [25].基于深度学习的关系抽取研究综述[J]. 中文信息学报 2019(12)
    • [26].网页内容安全快速信息抽取方法[J]. 信息网络安全 2012(10)
    • [27].针对科技路线图的文本挖掘研究:信息抽取方法[J]. 情报理论与实践 2017(05)
    • [28].基于句法结构的评价对象抽取方法研究[J]. 长春教育学院学报 2017(06)
    • [29].特定领域概念属性关系抽取方法研究[J]. 吉林大学学报(信息科学版) 2017(04)
    • [30].一种中文法律审判文书的知识抽取方法[J]. 信息系统工程 2020(05)

    标签:;  ;  ;  

    基于语义的Web信息抽取方法的研究与应用
    下载Doc文档

    猜你喜欢