基于手写体数字识别的信息录入与处理系统

基于手写体数字识别的信息录入与处理系统

论文摘要

手写体数字识别是信息录入的关键步骤,广泛应用于公安、税务、交通、金融等行业的实践活动中。虽然识别方法多种多样,但是目前技术尚不能使识别率达到100%。为了能够将手写体数字识别真正应用到实际工作中,本文除了在手写体识别算法的识别率提高上下功夫之外,还设计了一个基于手写体数字识别的信息录入与处理系统。手写体数字识别的主要难点在于手写体数字字形小,特征信息量少,不同的人群书写习惯不同造成数字的形态千变万化;在某些应用中对于单字识别来说,手写体数字的正确识别要比其他字符严格得多。在对手写体数字识别技术做了充分比较后,本文选择了BP神经网络算法作为识别算法。BP网络实质上实现了一个从输入到输出的映射,理论上它具有实现任何复杂的非线性映射的能力,适合于求解内部机制复杂的问题。BP神经网络的识别效果还依赖于训练神经网络样本集合的质量。为了获得识别率高、误识率低的分类神经网络,本文采集了不同人群中的5万余个有代表性的手写体数字图像作为训练、测试样本。有了这些样本以后,我们对样本图像作了二值化、去噪声、纠偏、细化、定位分割、尺寸归一化等一系列处理,经过这些处理后的单个字符图像被离散成神经网络的输入样本。将样本划分为训练集和测试集,对神经网络进行训练,所得到的神经网络能够达到较满意识别效果。其中,我在处理数字样本的时候发现,某些样本是对神经网络有害的‘坏’样本,在研究中我尝试将这些坏样本‘剔除’以后发现神经网络的识别率和拒识率有所提高、误识率明显下降。将手写体数字识别技术投入实际应用中是我们的最终目标,为此本文设计了一个基于手写体数字识别的信息录入与处理系统,此系统可以混合处理照片、文字(仅保存图像)、OMR以及手写体数字,本文仅重点研究及介绍其中的手写体数字识别模块。系统使用扫描仪将信息卡内容扫描到计算机中以后,程序对手写体数字图像进行二值化、去噪声等预处理,然后形成神经网络分类模型的输入,并由神经网络进行识别。识别后的结果会显示在计算机终端上,并由操作人员对拒识字符进行处理。考虑到识别算法可能有误识别的情况,本文设计了一种批量校对的方法来处理可能发生的误识。经过测试,BP神经网络手写体数字识别算法识别率可达到96.8%以上、拒识率小于2.7%、误识率小于0.5%;在实际系统应用中,批量手写体数字校对方式可以成倍提高误识校正的速度,熟练操作者的处理速度可以达到100字符/秒甚至更高,经过人工干预后,最终误识率小于万分之一。本文主要贡献如下:(1)实现了BP神经网络的训练和识别算法,并在实际工作中得到应用。(2)发现了‘坏’样本对BP网络识别效果的影响,给出了‘坏’样本的判定方法。(3)设计实现了识别结果的批量校对软件,提高了误识字符校对的效率。在以后的工作中,我还会在快速神经网络算法、神经网络集成和图像预处理等技术上多下功夫,争取为神经网络和手写体数字识别的应用和推广做出贡献。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.3 本文的工作
  • 第2章 研究基础
  • 2.1 手写体数字识别研究
  • 2.1.1 手写体数字识别简介
  • 2.1.2 手写体数字识别系统性能的评价方法
  • 2.1.3 手写体识别的技术难点
  • 2.2 神经网络研究
  • 2.2.1 神经网络简介
  • 2.2.2 神经网络的发展史
  • 2.2.3 神经网络的应用
  • 2.2.4 BP网络
  • 2.2.4.1 BP网络的学习过程
  • 2.2.4.2 BP算法的优、缺点
  • 2.2.4.3 BP网络的应用
  • 2.2.4.4 BP网络的设计思路
  • 2.3 图像采集与图像处理
  • 2.3.1 图像采集
  • 2.3.2 TWAIN接口标准协议
  • 2.3.3 图像处理
  • 第3章 系统设计
  • 3.1 样本采集
  • 3.2 图像获取
  • 3.3 图像预处理
  • 3.3.1 二值化
  • 3.3.2 纠偏
  • 3.3.3 去噪声
  • 3.3.4 定位分割
  • 3.3.5 细化
  • 3.3.6 尺寸归一化
  • 3.4 样本生成
  • 3.5 神经网络训练
  • 3.6 数字识别
  • 3.7 人机交互
  • 第4章 系统实现
  • 4.1 样本采集与图像获取
  • 4.1.1 数字样本的采集
  • 4.1.2 图像的获取
  • 4.2 图像预处理
  • 4.2.1 二值化
  • 4.2.2 去噪声
  • 4.2.3 纠偏
  • 4.2.4 分割
  • 4.2.5 图像尺寸归一化
  • 4.2.6 细化
  • 4.3 样本生成
  • 4.3.1 生成初始样本
  • 4.3.2 样本处理
  • 4.4 神经网络训练
  • 4.4.1 样本集划分
  • 4.4.2 训练
  • 4.4.3 测试
  • 4.5 神经网络识别
  • 4.6 应用系统实现
  • 4.6.1 系统运行的软硬件环境
  • 4.6.2 图像扫描
  • 4.6.3 手写体数字识别
  • 4.6.4 拒识字符处理
  • 4.6.5 批量手写体数字校对
  • 4.7 实验结果
  • 4.8 本章小结
  • 第5章 结论与展望
  • 5.1 结论
  • 5.2 展望
  • 参考文献
  • 致谢
  • 学位论文评阅及答辩情况表
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于手写体数字识别的信息录入与处理系统
    下载Doc文档

    猜你喜欢