基于向量线段的数学公式中特殊字符的识别

基于向量线段的数学公式中特殊字符的识别

论文摘要

随着计算机和网络技术的发展,将印刷体文档通过光学字符识别技术(Optical Characters Recognition, OCR)转化为电子格式进行存储和管理已经成为重要的信息流通方式。传统的OCR系统已经广泛用于手写、打印文档的字符识别并且有了很高的识别率,但是在某些特殊领域:如掺杂了字符、图表、公式的混合文献,由于无法识别文献中的数学公式和图表,使其效率和准确率都明显降低。如何准确的提取、解析并重构文献中的数学公式,已经成为当前识别领域的一个研究热点。在数学公式识别系统中,公式预处理及字符识别模块的作用是极为重要的,也是决定识别效果的关键。本文主要针对印刷体数学公式字符识别展开研究,目的在于提高数学公式字符识别的速度,并同时确保数学公式识别的准确率,最终提高含有数学公式的印刷体文献的整体识别效率。本文设计了可以适应含有特殊字符、大小字体不同、二维分布等特点的特殊字符识别算法。引入向量线段的概念,通过特征算法提取字符中的向量线段组成近似多边形,并基于向量线段的特征矢量进行字符的比较识别,此外本文还架设了用于字符的比对和识别的包含丰富字符原型的字符数据库以及扩展性极强的识别器。在此基础上文章提出一个较为完善的测试结构,同时满足对六种不同的字符比较算法的字符识别测试,通过对测试结果的分析,进一步优化数据库和算法设计,最后通过实验证明该算法对于数学公式中特殊字符的分析识别具有较好的准确性和应用前景。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 研究背景
  • 1.2 国内外研究近况
  • 1.3 本文的工作
  • 第二章 OCR算法概述
  • 2.1 OCR系统概述
  • 2.2 数学公式识别系统概述
  • 2.3 数学公式识别算法的评价标准
  • 2.4 本章小结
  • 第三章 字符特征提取及去噪算法
  • 3.1 字符提取的基本概念定义
  • 3.1.1 轮廓线、向量线段和边界矩形
  • 3.1.2 字符方向
  • 3.2 提取向量线段
  • 3.2.1 提取轮廓线
  • 3.2.2 提取多边形
  • 3.2.3 去除噪点
  • 3.3 本章小结
  • 第四章 字符识别比较算法
  • 4.1 基于线段长度和近似方向的比较算法
  • 4.2 基于向量线段和近似方向的比较算法
  • 4.3 基于矢量组夹角及近似方向的比较算法
  • 4.4 基于向量长度和近似方向的比较算法
  • 4.5 基于线段长度和方向的比较算法
  • 4.6 基于线段长度和坐标的比较算法
  • 4.7 本章小结
  • 第五章 构建字符比对数据库和测试框架
  • 5.1 从Infty-CDB数据库中提取字符图像
  • 5.2 定义比对数据库格式
  • 5.3 构建测试框架
  • 5.4 字符识别过程
  • 5.5 实验项目实施概述
  • 5.5.1 实验项目结构
  • 5.5.2 建立对象模型
  • 5.5.3 测试程序架构
  • 5.5.4 模块测试
  • 5.6 本章小结
  • 第六章 实验结果分析
  • 6.1 未识别字符分类
  • 6.2 针对测试结果优化算法
  • 6.3 结果评估
  • 6.3.1 数据库待优化
  • 6.3.2 最优算法存在限制
  • 第七章 结束语
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于向量线段的数学公式中特殊字符的识别
    下载Doc文档

    猜你喜欢