基于本体的金融年报语义网自动构建方法

基于本体的金融年报语义网自动构建方法

论文摘要

持续走热的通用搜索引擎带来了海量信息检索的极大便利,但对于具体某个领域而言,检索能力尚不足以令人满意。于是,各个领域的垂直搜索犹如百花齐放。具体到金融领域,投资用户经常需要阅读繁杂的年报数据,而通用搜索引擎对此能帮上的忙极为有限。于是,基于金融年报本体库的金融年报语义网信息检索系统应运而生,该系统能给予投资用户精确的查询结果,并能进行自动推理,向用户推送可能需要的信息。而大规模金融年报语义网的自动构建问题是该系统的最大瓶颈所在。本文的主要研究目的就是将本体与信息抽取技术相结合,实现金融年报语义网的自动构建。主要的研究内容如下:(1)对年报文本,通过最小标注块的切分、精确匹配及模糊匹配,并基于金融年报本体库进行语义的自动标注。(2)对年报非标记表格进行表格结构识别,主要包括子表格切分、列分割和列跨度识别、行分段、展开方式识别和表格标题定位这五个方面。后三个方面都使用了金融年报本体库的信息。(3)对经过结构识别的非标记表格进行规整化,得到具有清晰行列信息的标准表格,之后再基于本体进行表格的语义自动标注。(4)研究用于金融年报语义网自动构建系统的准确度评测方法,并评测了本体库对系统的影响程度。在表格结构识别阶段,子表格切分、列分割和行分段都有很高的准确度。列跨度识别过于依赖文本排布,展开方式过于依赖本体,因此它们的准确度稍差些,还需要进一步改进。由于本体库的完善与否、表格结构识别各阶段的准确度以及模糊匹配算法的选择都会影响整个系统的性能,因此目前该系统的准确度为63.1%,还具有一定的改进空间。本文的研究方法还可适当地用于其他领域的语义自动标注,因为本体库的切换,可以让其快速切换到其它领域,这也在一定程度上展示了系统的良好扩展性。此外,本文的算法研究也可为其他半结构化文档的结构化及非标记表格的信息抽取带来一定的参考价值。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 本课题研究的目的及意义
  • 1.3 国内外相关技术发展现状
  • 1.3.1 语义网发展现状
  • 1.3.2 本体研究现状
  • 1.3.3 语义标注研究现状
  • 1.3.4 表格信息抽取技术
  • 1.3.5 总结
  • 1.4 本文主要研究内容
  • 1.5 本章小结
  • 第2章 语义网自动构建技术
  • 2.1 语义标注方法
  • 2.2 信息抽取技术
  • 2.3 非标记表格的信息抽取技术
  • 2.3.1 基于水平跨度重叠的方法
  • 2.3.2 基于聚类的方法
  • 2.3.3 基于规则的方法
  • 2.3.4 基于识别模型训练的方法
  • 2.4 使用算法概述
  • 2.5 本章小结
  • 第3章 年报文本的语义自动标注
  • 3.1 语义自动标注系统架构
  • 3.2 年报文本的语义自动标注
  • 3.2.1 文本预处理
  • 3.2.2 模糊匹配查找
  • 3.2.3 文本语义自动标注结果
  • 3.3 本章小结
  • 第4章 非标记表格的语义自动标注方法
  • 4.1 表格术语定义
  • 4.2 表格语义自动标注整体描述
  • 4.3 子表格切分
  • 4.3.1 子表格模式查找
  • 4.3.2 切分正确性检验
  • 4.3.3 子表格尾部修正
  • 4.4 列分割和列跨度识别
  • 4.4.1 术语定义
  • 4.4.2 算法设计
  • 4.4.3 列跨度有效性举例
  • 4.4.4 列调整
  • 4.5 行分段
  • 4.5.1 术语定义
  • 4.5.2 算法设计
  • 4.5.3 行分段调整
  • 4.6 标准表格的语义自动标注
  • 4.6.1 展开方式识别
  • 4.6.2 表格标题定位
  • 4.6.3 语义自动标注
  • 4.7 本章小结
  • 第5章 实验结果及分析
  • 5.1 实验环境
  • 5.2 表格结构识别结果与分析
  • 5.2.1 子表格切分
  • 5.2.2 列分割和列跨度识别
  • 5.2.3 行分段
  • 5.3 语义自动标注结果与分析
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].空管领域本体库的构建研究与实现[J]. 中国民航大学学报 2012(06)
    • [2].基于思维导图的小学教育语义本体库构建[J]. 电子设计工程 2016(03)
    • [3].中医病证本体库的构建研究[J]. 无线互联科技 2018(13)
    • [4].基于内容的学位论文本体库构建研究——以赛珍珠《大地三部曲》专题研究学位论文为例[J]. 大学图书馆学报 2017(03)
    • [5].面向文景转换系统的空间本体库体系结构[J]. 计算机研究与发展 2010(07)
    • [6].基于初中物理课程的学科领域本体库构建研究[J]. 电化教育研究 2014(08)
    • [7].基于领域本体库的电子政务智能浏览系统[J]. 计算机技术与发展 2012(08)
    • [8].基于Oracle 11g语义技术的测绘学科分类本体库构建[J]. 城市勘测 2015(05)
    • [9].基于初中物理课程的学科领域本体库构建研究[J]. 考试周刊 2018(70)
    • [10].基于元数据标准的语义化教育资源本体库构建与实现[J]. 电子设计工程 2015(18)
    • [11].基于IT运维本体库的构建[J]. 金华职业技术学院学报 2014(03)
    • [12].中文本体的半自动构建研究[J]. 情报杂志 2009(11)
    • [13].基于本体的房地产智能检索研究[J]. 科技情报开发与经济 2009(34)
    • [14].基于保守扩充理论的模块化本体重用[J]. 软件学报 2016(11)
    • [15].基于多数据源的知识图谱构建方法研究[J]. 福州大学学报(自然科学版) 2017(03)
    • [16].基于语义技术网络信息检索的研究[J]. 哈尔滨商业大学学报(自然科学版) 2011(05)
    • [17].石油领域本体库的构建研究[J]. 电子设计工程 2011(20)
    • [18].基于结构特征的海量三维模型管理方法[J]. 图学学报 2015(01)
    • [19].在线评论情感词汇模糊本体库构建[J]. 辽宁工程技术大学学报(社会科学版) 2010(04)
    • [20].基于本体学习的自动化本体构建探讨[J]. 中国集体经济 2008(27)
    • [21].浅谈一种基于过程本体的语义检索方法[J]. 数字技术与应用 2014(09)
    • [22].面向涉恐领域的知识图谱构建方法[J]. 信息技术与网络安全 2019(09)
    • [23].以多语本体库为核心的跨语言信息检索映射技术研究进展——EuroWordNet案例分析[J]. 图书情报工作 2016(02)
    • [24].基于本体的专利检索技术[J]. 浙江大学学报(工学版) 2009(12)
    • [25].国内外主要本体库比较分析研究[J]. 现代图书情报技术 2011(01)
    • [26].语义网检索中的知识收集方法研究[J]. 计算机工程与科学 2010(12)
    • [27].基于本体的CIM层模型转换技术研究[J]. 计算机应用研究 2009(02)
    • [28].基于本体的语义网检索模型技术研究[J]. 信息系统工程 2016(01)
    • [29].基于语义相似度的智能搜索方法研究[J]. 黑龙江科学 2010(03)
    • [30].本体构建理论在石油领域的应用研究[J]. 计算技术与自动化 2011(03)

    标签:;  ;  ;  ;  

    基于本体的金融年报语义网自动构建方法
    下载Doc文档

    猜你喜欢