论文摘要
手写数字识别是光学识别技术OCR的一个分支,属于模式识别的一个重要问题,研究如何利用电子计算机自动辨认人手写在纸张等介质上的阿拉伯数字。这在邮政分拣、银行票据识别、报表统计等众多领域中有着广泛应用前景。同时,数字串切分是识别的关键步骤,其准确与否直接影响到后面识别率的高低,因此同样具有重要研究价值。本文主要讨论手写体数字串在脱机、无约束(即没有任何类似框格限制)的情况下对其进行切分和识别的算法。多年来,人们在这个研究领域提出了很多有效的方法,但因书写人的随意性,风格的迥异性使得该领域远不能达到完善的程度。尤其是在无约束造成大量重叠、粘连、断笔存在的情况下,其切分和识别率都达不到满意的效果,仍有许多工作要做。本文在前人研究成果的基础上,致力于无约束脱机手写数字串的切分和识别算法的研究,目的是为了能在该领域做些有益的探索。主要工作包括以下几个方面:(一)数字串切分:在列举了多种现有经典切分算法的基础上,提出一种新的基于数字串字符图像凹凸特性的切分方法。该方法从根本上克服了已有算法需要细化、路径搜索等复杂处理的弊端,从而大大提高切分率,缩短切分时间。(二)单数字识别:本文未采用目前广为流行的神经网络方法,而是提出一种利用字符图像的凹凸特性,构造其笔顺编码及正则表达式匹配的新方法。因利用字符的整体特征,故识别过程简单快速。在获得了较高识别率的同时,识别速度也较其它方法提高了近一倍。(三)数字识别扩展:除了数字,本文提出的基于凹凸特性的识别方法还可扩展到小类别字符集。为此,特别做了有关26个大写英文字母识别的实验,并详细描述了利用字母图像凹凸特性识别的完整方法。与其它方法相比,识别率和速度都得到了提高。(四)系统实验:使用MATLAB 7.0开发工具,以国际上通用的手写体数字图像数据库和自主采集的手写体数字图像库为实验对象,独立完成了一个基于凹凸特性的无约束手写数字串切分和识别的演示系统。同时还与部分其它相关算法作了比较。可以看出,本文方法取得了较好效果。