![基于向量线段的数学公式中特殊字符的识别](https://www.lw50.cn/thumb/e27a6e9a490a9561042346bc.webp)
论文摘要
随着计算机和网络技术的发展,将印刷体文档通过光学字符识别技术(Optical Characters Recognition, OCR)转化为电子格式进行存储和管理已经成为重要的信息流通方式。传统的OCR系统已经广泛用于手写、打印文档的字符识别并且有了很高的识别率,但是在某些特殊领域:如掺杂了字符、图表、公式的混合文献,由于无法识别文献中的数学公式和图表,使其效率和准确率都明显降低。如何准确的提取、解析并重构文献中的数学公式,已经成为当前识别领域的一个研究热点。在数学公式识别系统中,公式预处理及字符识别模块的作用是极为重要的,也是决定识别效果的关键。本文主要针对印刷体数学公式字符识别展开研究,目的在于提高数学公式字符识别的速度,并同时确保数学公式识别的准确率,最终提高含有数学公式的印刷体文献的整体识别效率。本文设计了可以适应含有特殊字符、大小字体不同、二维分布等特点的特殊字符识别算法。引入向量线段的概念,通过特征算法提取字符中的向量线段组成近似多边形,并基于向量线段的特征矢量进行字符的比较识别,此外本文还架设了用于字符的比对和识别的包含丰富字符原型的字符数据库以及扩展性极强的识别器。在此基础上文章提出一个较为完善的测试结构,同时满足对六种不同的字符比较算法的字符识别测试,通过对测试结果的分析,进一步优化数据库和算法设计,最后通过实验证明该算法对于数学公式中特殊字符的分析识别具有较好的准确性和应用前景。
论文目录
摘要Abstract第一章 引言1.1 研究背景1.2 国内外研究近况1.3 本文的工作第二章 OCR算法概述2.1 OCR系统概述2.2 数学公式识别系统概述2.3 数学公式识别算法的评价标准2.4 本章小结第三章 字符特征提取及去噪算法3.1 字符提取的基本概念定义3.1.1 轮廓线、向量线段和边界矩形3.1.2 字符方向3.2 提取向量线段3.2.1 提取轮廓线3.2.2 提取多边形3.2.3 去除噪点3.3 本章小结第四章 字符识别比较算法4.1 基于线段长度和近似方向的比较算法4.2 基于向量线段和近似方向的比较算法4.3 基于矢量组夹角及近似方向的比较算法4.4 基于向量长度和近似方向的比较算法4.5 基于线段长度和方向的比较算法4.6 基于线段长度和坐标的比较算法4.7 本章小结第五章 构建字符比对数据库和测试框架5.1 从Infty-CDB数据库中提取字符图像5.2 定义比对数据库格式5.3 构建测试框架5.4 字符识别过程5.5 实验项目实施概述5.5.1 实验项目结构5.5.2 建立对象模型5.5.3 测试程序架构5.5.4 模块测试5.6 本章小结第六章 实验结果分析6.1 未识别字符分类6.2 针对测试结果优化算法6.3 结果评估6.3.1 数据库待优化6.3.2 最优算法存在限制第七章 结束语参考文献致谢
相关论文文献
标签:特殊字符识别论文; 特征提取论文; 近似多边形论文; 原型数据库论文; 识别器论文;