Print

印刷体数学表达式的结构分析

论文摘要

当前的OCR (Optical Character Recognition,光学字符识别)技术虽然对中英文字符和数字符号都能获得较好的识别效果,但还无法准确识别科技文献中的数学表达式。因此,为实现数学表达式的再利用,数学表达式识别问题已经成为模式识别领域的一个研究热点。数学表达式识别系统主要包括四个处理模块:文档中数学表达式的定位,数学表达式中字符与符号的切分与识别,数学表达式的结构分析和数学表达式的重构。结构分析作为数学表达式识别系统处理模块之一,其准确性直接影响公式重构的质量,是整个数学表达式识别系统的关键。本文针对这一关键环节展开研究,以基线分析方法为基础,给出结构分析后处理算法对结构分析结果进行检测和修正;并设计深度遍历数学表达式的基线分析方法,构建结构关系树。对不同类型印刷文档的对比实验表明,本文设计的深度遍历数学表达式基线法提高了系统的适应性和结构分析正确率。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.3 本文工作及组织
  • 第2章 数学表达式识别系统概述
  • 2.1 数学表达式识别系统的组成
  • 2.2 数学表达式识别的难点
  • 第3章 数学表达式结构分析
  • 3.1 结构分析方法综述
  • 3.2 基准线结构分析方法
  • 3.2.1 基准线结构分析方法
  • 3.2.2 基准线结构分析算法描述
  • 3.3 结构分析后处理
  • 3.3.1 结构分析常见问题
  • 3.3.2 后处理算法
  • 3.3.3 算法描述
  • 3.3.4 后处理示例
  • 3.4 深度遍历递归分析数学表达式算法
  • 3.4.1 算法思想及流程
  • 3.4.2 算法描述
  • 3.4.3 深度遍历递归分析表达式示例
  • 第4章 实验结果分析
  • 4.1 实验过程
  • 4.2 时间性能分析
  • 4.3 实验结果分析
  • 第5章 结论与展望
  • 5.1 工作总结
  • 5.2 后续工作展望
  • 参考文献
  • 攻读硕士学位期间发表论文情况
  • 致谢
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/1ed6b85b4b5eccad8aba8acc.html