无约束手写数字串切分与识别算法研究

无约束手写数字串切分与识别算法研究

论文摘要

手写数字识别是光学识别技术OCR的一个分支,属于模式识别的一个重要问题,研究如何利用电子计算机自动辨认人手写在纸张等介质上的阿拉伯数字。这在邮政分拣、银行票据识别、报表统计等众多领域中有着广泛应用前景。同时,数字串切分是识别的关键步骤,其准确与否直接影响到后面识别率的高低,因此同样具有重要研究价值。本文主要讨论手写体数字串在脱机、无约束(即没有任何类似框格限制)的情况下对其进行切分和识别的算法。多年来,人们在这个研究领域提出了很多有效的方法,但因书写人的随意性,风格的迥异性使得该领域远不能达到完善的程度。尤其是在无约束造成大量重叠、粘连、断笔存在的情况下,其切分和识别率都达不到满意的效果,仍有许多工作要做。本文在前人研究成果的基础上,致力于无约束脱机手写数字串的切分和识别算法的研究,目的是为了能在该领域做些有益的探索。主要工作包括以下几个方面:(一)数字串切分:在列举了多种现有经典切分算法的基础上,提出一种新的基于数字串字符图像凹凸特性的切分方法。该方法从根本上克服了已有算法需要细化、路径搜索等复杂处理的弊端,从而大大提高切分率,缩短切分时间。(二)单数字识别:本文未采用目前广为流行的神经网络方法,而是提出一种利用字符图像的凹凸特性,构造其笔顺编码及正则表达式匹配的新方法。因利用字符的整体特征,故识别过程简单快速。在获得了较高识别率的同时,识别速度也较其它方法提高了近一倍。(三)数字识别扩展:除了数字,本文提出的基于凹凸特性的识别方法还可扩展到小类别字符集。为此,特别做了有关26个大写英文字母识别的实验,并详细描述了利用字母图像凹凸特性识别的完整方法。与其它方法相比,识别率和速度都得到了提高。(四)系统实验:使用MATLAB 7.0开发工具,以国际上通用的手写体数字图像数据库和自主采集的手写体数字图像库为实验对象,独立完成了一个基于凹凸特性的无约束手写数字串切分和识别的演示系统。同时还与部分其它相关算法作了比较。可以看出,本文方法取得了较好效果。

论文目录

  • 摘要
  • abstract
  • 第一章 绪论
  • 1.1 引言
  • 1.2 国内外研究历史和现状
  • 1.3 HNR典型应用
  • 1.4 研究难点
  • 1.5 系统描述
  • 1.6 本文内容及结构安排
  • 第二章 预处理及特征提取
  • 2.1 预处理
  • 2.1.1 去噪
  • 2.1.2 二值化
  • 2.2 凹凸特征提取
  • 2.2.1 计算赋值背景
  • 2.2.2 提取凹凸特性
  • 第三章 手写数字串的切分
  • 3.1 切分方法概述
  • 3.2 手写数字串的常用切分方法简介
  • 3.2.1 根据黑点数投影的直线切分
  • 3.2.2 滴水算法
  • 3.2.3 动态规划算法
  • 3.2.4 滑动窗口方法
  • 3.2.6 多模具切分方法
  • 3.3 基于凹凸特性的切分方法
  • 3.3.1 提取凹凸特性
  • 3.3.2 寻找切分区域
  • 3.3.3 提取切分线
  • 3.3.4 切分实例
  • 第四章 手写体数字识别
  • 4.1 神经网络在HNR 中的应用
  • 4.1.1 特征提取
  • 4.1.2 网络模式的确定
  • 4.2 基于凹凸特性的手写体数字识别
  • 4.2.1 提取凹凸特征
  • 4.2.2 笔顺编码
  • 4.2.3 分类识别处理
  • 4.3 基于凹凸特性识别方法的扩展
  • 4.3.1 提取凹凸特性
  • 4.3.2 改进的凹凸特性提取
  • 4.3.3 字母的分类识别
  • 4.3.4 字母实验结果及对比
  • 第五章 实验分析及系统实现
  • 5.1 实验评价指标
  • 5.2 实验数据分析及结论
  • 5.2.1 实验用样本介绍
  • 5.2.2 实验结果
  • 5.2.3 实验对比及结论
  • 5.3 系统实现
  • 第六章 总结及展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表的论文和参加的科研项目
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    无约束手写数字串切分与识别算法研究
    下载Doc文档

    猜你喜欢