中文科技文档中数学公式的抽取

中文科技文档中数学公式的抽取

论文摘要

随着计算机和互联网的发展,越来越多的资料被以文档图像的形式存储到计算机上。通过网络进行信息的存储、查找和传播也越来越成为当前信息流通的主要渠道。如何快速、高效地将这些文档图像转化为可编辑的格式成为急需解决的问题,文档图像分析技术作为一个新的研究领域应运而生。光学字符识别(OCR)是文档图像分析的核心技术。现有的OCR系统对打印字符已经能做到很高的识别率。而数学公式由于其存在二维结构,单纯通过扩充识别系统字库无法完全记录公式图像所含全部信息。如何将打印科技文档中的公式进行定位、识别和重组,依然是一个正在研究中的课题。虽然已经提出了多种算法,但这些算法大部分是针对英文环境下的文档。由于中英文在字库技术,字符连通体构成上的诸多不同,简单地将英文环境下算法移植到中文环境下会产生大量错误,且没有利用中文文档的特点,是不可取的。本文首先在绪论中介绍了文档图像分析技术,以及模式识别和神经网络等相关领域的背景知识。在定位数学公式的时候,本文给出的新算法需要对数学符号进行识别。第二章主要介绍了利用Zernike距提取字符的特征,由自组织特征映射(SOFM)神经网络和BP神经网络组成多分类器进行符号识别的技术。第三章首先回顾了当前一些应用于英文环境中的公式定位算法,提出了这些算法在应用于中文科技文当时会出现的问题,讨论了标记连通体这一当前文档分析技术中非常依赖的技术。并对中文字符的特点,中文文档排版的特点,人类阅读方式,及科技文档中普遍存在的公式分布局部性进行了讨论。在此基础上,本文提出了一种新的算法,该算法采用输入框组并行的读入目标,并判定其是否是规则汉字,从而规避了标记连通体步骤。并且利用了公式分布的局部性,对不同密度采用速度不同的算法,从而提高了整体公式定位速度。对于算法中遇到的各种具体问题,包括输入框标准的确定,汉字的确认,排版微调造成的所占空间的小差异等等,都给出了具体的解决方法。在本文的最后部分,分析了系统中仍然存在的问题,并讨论了新系统未来的扩展方向。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 文档图像分析
  • 1.1.1 文档图像分析概述
  • 1.1.2 文档图像分析设计的相关技术
  • 1.2 模式识别
  • 1.2.1 模式识别基本概念
  • 1.2.2 模式识别几种主要方法的比较
  • 1.2.3 神经网络方法解决模式识别问题的基本步骤
  • 1.3 人工神经网络
  • 1.3.1 神经网络的分类
  • 1.3.2 神经网络的特性
  • 1.3.3 神经网络的学习方式和学习规则
  • 1.4 本文的主要工作
  • 2 基于人工神经网络的数学公式符号的识别
  • 2.1 BP神经网络
  • 2.1.1 BP神经网络的结构
  • 2.1.2 BP神经网络的权值更新
  • 2.2 用Zernike矩进行特征提取
  • 2.3 数学符号的识别
  • 3 中文环境中数学公式的抽取
  • 3.1 该领域研究概况及相关问题
  • 3.1.1 现有算法介绍
  • 3.1.2 标记连通体的讨论
  • 3.1.3 对人类阅读方式的借鉴
  • 3.1.4 公式分布局部性及中文科技文档的特性
  • 3.2 公式抽取新算法的特点
  • 3.2.1 规避画连通体步骤
  • 3.2.2 并行读入字符
  • 3.2.3 将公式定位过程分为三种状态
  • 3.3 详细步骤
  • 3.3.1 获取标准字高heightStd及标准行空隙heightGapStd
  • 3.3.2 获取标准字宽widthStd及标准字空隙widthGapStd
  • 3.3.3 通过投影数据抽取独立公式行
  • 3.3.4 汉字的确认
  • 3.3.5 整体算法流程
  • 3.4 数学公式定位试验
  • 结论
  • 参考文献
  • 攻读硕士学位期间学术论文完成情况
  • 致谢
  • 相关论文文献

    • [1].《液压与气动》数学公式要求[J]. 液压与气动 2020(01)
    • [2].《液压与气动》数学公式要求[J]. 液压与气动 2020(02)
    • [3].《液压与气动》数学公式要求[J]. 液压与气动 2020(03)
    • [4].《液压与气动》数学公式要求[J]. 液压与气动 2020(04)
    • [5].《液压与气动》数学公式要求[J]. 液压与气动 2020(05)
    • [6].《液压与气动》数学公式要求[J]. 液压与气动 2020(06)
    • [7].《液压与气动》数学公式要求[J]. 液压与气动 2019(11)
    • [8].计算机数学公式的立体结构运算算法[J]. 电子技术与软件工程 2018(03)
    • [9].拾趣[J]. 中学生百科 2020(15)
    • [10].随意输入复杂数学公式[J]. 电脑迷 2009(17)
    • [11].关于数学公式教学的几点思考[J]. 中学数学 2011(01)
    • [12].基于数学公式有效教学模式的探究[J]. 读与写(教育教学刊) 2018(04)
    • [13].亦如幻想中美好[J]. 汽车知识 2016(12)
    • [14].初中数学列方程解应用题的思路研究[J]. 理科考试研究 2016(24)
    • [15].我在窗前等阳光[J]. 少男少女 2016(27)
    • [16].一题多变激活学生思维[J]. 山东教育 2016(34)
    • [17].π与最美的数学公式[J]. 语数外学习(高中版中旬) 2016(07)
    • [18].最后一张牌[J]. 数学大王(中高年级) 2017(03)
    • [19].基于数学素养视角下的高中数学公式教学策略实证研究[J]. 数理化解题研究 2017(06)
    • [20].把握公式教学特征,促进数学知识的达成——以“完全平方公式”教学为例[J]. 生活教育 2017(02)
    • [21].数学公式编辑中值得注意的一些问题[J]. 学报编辑论丛 2016(00)
    • [22].与学生相处之道[J]. 广西教育 2017(24)
    • [23].高中数学公式和定理的教学[J]. 启迪与智慧(教育) 2017(07)
    • [24].夏去未去,你是课桌前一抹少女蓝[J]. 课堂内外(初中版) 2017(09)
    • [25].活用数学公式优化初中数学课堂[J]. 科普童话 2015(41)
    • [26].数学公式教学漫谈[J]. 云南教育(中学教师) 2015(11)
    • [27].数学公式教学之“三忌、三重”[J]. 湖南教育(下) 2010(03)
    • [28].数学公式的“二次处理”对学生思维的培养[J]. 数学通讯 2010(22)
    • [29].例说运用高中数学公式的五个层次[J]. 农家参谋 2017(21)
    • [30].公式鉴赏:数学公式教学的新视角[J]. 中学数学研究 2012(12)

    标签:;  ;  ;  ;  ;  

    中文科技文档中数学公式的抽取
    下载Doc文档

    猜你喜欢