论文摘要
当前的OCR (Optical Character Recognition,光学字符识别)技术虽然对中英文字符和数字符号都能获得较好的识别效果,但还无法准确识别科技文献中的数学表达式。因此,为实现数学表达式的再利用,数学表达式识别问题已经成为模式识别领域的一个研究热点。数学表达式识别系统主要包括四个处理模块:文档中数学表达式的定位,数学表达式中字符与符号的切分与识别,数学表达式的结构分析和数学表达式的重构。结构分析作为数学表达式识别系统处理模块之一,其准确性直接影响公式重构的质量,是整个数学表达式识别系统的关键。本文针对这一关键环节展开研究,以基线分析方法为基础,给出结构分析后处理算法对结构分析结果进行检测和修正;并设计深度遍历数学表达式的基线分析方法,构建结构关系树。对不同类型印刷文档的对比实验表明,本文设计的深度遍历数学表达式基线法提高了系统的适应性和结构分析正确率。
论文目录
摘要Abstract第1章 引言1.1 研究背景1.2 国内外研究现状1.3 本文工作及组织第2章 数学表达式识别系统概述2.1 数学表达式识别系统的组成2.2 数学表达式识别的难点第3章 数学表达式结构分析3.1 结构分析方法综述3.2 基准线结构分析方法3.2.1 基准线结构分析方法3.2.2 基准线结构分析算法描述3.3 结构分析后处理3.3.1 结构分析常见问题3.3.2 后处理算法3.3.3 算法描述3.3.4 后处理示例3.4 深度遍历递归分析数学表达式算法3.4.1 算法思想及流程3.4.2 算法描述3.4.3 深度遍历递归分析表达式示例第4章 实验结果分析4.1 实验过程4.2 时间性能分析4.3 实验结果分析第5章 结论与展望5.1 工作总结5.2 后续工作展望参考文献攻读硕士学位期间发表论文情况致谢
相关论文文献
标签:光学字符识别论文; 数学表达式识别论文; 结构分析论文; 基线论文; 公式结构树论文;