当前的OCR (Optical Character Recognition,光学字符识别)技术虽然对中英文字符和数字符号都能获得较好的识别效果,但还无法准确识别科技文献中的数学表达式。因此,为实现数学表达式的再利用,数学表达式识别问题已经成为模式识别领域的一个研究热点。数学表达式识别系统主要包括四个处理模块:文档中数学表达式的定位,数学表达式中字符与符号的切分与识别,数学表达式的结构分析和数学表达式的重构。结构分析作为数学表达式识别系统处理模块之一,其准确性直接影响公式重构的质量,是整个数学表达式识别系统的关键。本文针对这一关键环节展开研究,以基线分析方法为基础,给出结构分析后处理算法对结构分析结果进行检测和修正;并设计深度遍历数学表达式的基线分析方法,构建结构关系树。对不同类型印刷文档的对比实验表明,本文设计的深度遍历数学表达式基线法提高了系统的适应性和结构分析正确率。
本文来源: https://www.lw50.cn/article/1ed6b85b4b5eccad8aba8acc.html