中文印刷体文档数学公式识别系统

论文摘要

在科技高度发展的现代，数学表达式是大多数科技文献的核心。但是，数学公式由于使用特殊符号繁多，排版格式复杂多变，因而在计算机上处理特别困难，这也制约了利用计算机和网络开展数学辅助教学的发展。因此对它的研究可以使数学表达式用于检索，提高文献的科技性；实现公式输入的自动化，以解决手动输入的低效率问题；改变数学表达式图片的存在形式，可以节省空间，提高网络的传输速度等。目前广泛应用的OCR系统对手写、印刷体文本都有很高的识别率，已经广泛应用于办公自动化等领域，克服了人工输入费时费力的缺点。但是它只能识别单个字符，还不能分析公式结构，这样就失去了公式所表达的数学含义。因此，本文提出一种对文档中的数学公式定位提取后利用基于特征字符的印刷体数学公式识别方法的设计思想，并给出了完整算法，将印刷体的数学公式(图像格式)转换成可编辑的电子格式。本文主要分为以下几个部分：首先是预处理。图像在生成的过程中容易引进噪声，为了使图像达到我们的要求，要对它进行二值化、平滑去噪、细化、大小归一化等处理。其次是公式定位。利用统计计算文档正文一行文本字符宽度2阶中心矩的修正值大小来判定这行文本中是否含有数学公式。在判定含有数学公式的文本行中，利用数学公式符号与汉字字符外部形态特征的不同把它们区分开，并定位数学公式。然后是公式字符识别。由于定位的是一个整体的公式，而我们需要知道公式包含的各个字符以及它们之间的位置关系，因此，就要分割公式所包含的字符并且识别它们。本文采用快速算法进行字符的分割，用模板匹配的方法进行字符识别。接下来研究结构分析。本文采用基于特征字符的方法进行结构分析，提出了特征字符和特征子块的概念。对输入的公式，按照特征字符的处理算法进行分割，并对不同的特征字符，采用不同的处理算法，找出各个特征子块。直到子块中无上下标，然后进行识别。最后就是结果输出。在这一部分给出了Word EQ域的使用方法。并把结构分析生成的语法树转换为可编辑的Word EQ格式。

论文目录

摘要

Abstract

第1章绪论

1.1 课题研究的目的和意义

1.2 国内外研究情况

1.2.1 基于神经网络的数学公式符号分割与识别系统

1.2.2 基于统计特征的印刷体数学公式上/下标关系判别

1.2.3 基于专家系统的公式识别器的实现

1.3 OCR 系统

1.3.1 OCR 系统的发展研究现状

1.3.2 OCR 系统处理的一般步骤

1.4 数学公式定位识别过程及存在的难点

1.4.1 数学公式识别的难点

1.4.2 数学公式识别的流程

1.5 论文完成的工作及章节安排

第2章印刷体文档的图像预处理

2.1 印刷体文档图像的灰度化

2.2 印刷体文档图像的二值化

2.3 印刷体文档图像的平滑去噪

2.4 印刷体文档图像的细化

2.5 印刷体文档图像的大小归一化

2.5.1 符号大小归一化方法

2.5.2 表达式符号图像的大小归一化

2.6 本章小结

第3章数学公式定位

3.1 样本文本特征库的建立

3.1.1 获取样本特征库中所需的各统计数据的基本信息

3.1.2 印刷体正文文档行提取

3.1.3 确定正文文档中的汉字在X轴上坐标

3.1.4 印刷体文档中汉字位置坐标的确定

3.1.5 左右结构汉字的处理

3.1.6 标点符号的处理

3.2 数学公式的定位

3.2.1 处理公式行合并问题

3.2.2 公式行的判定方法

3.2.3 独立公式行的定位提取

3.2.4 内嵌公式行内数学公式的定位提取

3.3 本章小结

第4章数学公式字符的识别

4.1 数学公式字符标准特征库的建立

4.2 字符的特征提取

4.2.1 特征定义

4.2.2 字符描述

4.3 字符的分割与识别

4.3.1 字符分割的算法分析

4.3.2 快速算法原理

4.3.3 字符的识别

4.4 本章小结

第5章数学公式结构分析

5.1 公式行的概述及同行判定

5.1.1 概述

5.1.2 同行判定

5.2 特征字符的定义与分类

5.3 基于特征字符的结构分析算法

5.3.1 结构分析整体算法

5.3.2 结构分析的生成结果

5.4 本章小结

第6章数学公式的表示方法

6.1 常用的数学公式表达方式

6.1.1 Tex 语言

6.1.2 MathML 语言

6.1.3 Word EQ 域

6.2 EQ 域及各开关的表达方式

6.2.1 EQ 域的使用格式

6.2.2 EQ 域开关的表达方式及功能

6.3 本章小结

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

中文印刷体文档数学公式识别系统

论文摘要

论文目录

相关论文文献

猜你喜欢