手写体汉字识别研究

手写体汉字识别研究

论文摘要

脱机汉字识别是模式识别的一个重要研究领域,是汉字信息处理的重要接口技术。经过几十年的研究,在印刷体识别、银行支票、邮政系统等方面取得了重要成果。但在整个OCR领域,尤其是自由手写体领域,目前在提高识别率方面还存在相当大的困难,成为该领域最具挑战的课题。论文做的主要工作如下:首先,对图像进行了预处理,去除与文字无关的信息,如色彩信息;针对一般文本图像,本文设计了一种算法,来获取文字前景图像。从效果上看,一方面,去除了较多的背景信息,另一方面,较好地保留了文字的信息。其次,综述了用于单个手写体汉字识别的特征,如轮廓特征、方向线素特征、网格特征、背景特征等。重点介绍了方向线素特征的提取方法以及基于统计的网格特征的研究成果,并分析了这些特征在文字识别方面的优劣性。然后对细化算法的分类进行了深入的探讨,如可以分为基于象素判断的算法和基于边缘侵蚀的算法。本文提出了一种基于保留骨架点的并行算法,该算法对图像细化有较好的效果。再次,对多行手写体识别的特点进行了研究,是文章的主要的研究成果。首先提出了连通分支的标记方法,由于该方法处理的数据量大,文章先对文本图像进行了行切分的预处理,有效减少了数据量,在得到行后,由于文字部件结构复杂,又提出了一种基于连通分支合并和分解的方法,得到了较佳的处理效果。最后,针对手写体普遍出现粘连,重叠的现象,综述了前人的成果,如角点检测算法,基于字符图像背景的切分算法。并从另一角度,即把整个文字图像看作一个图,对图像的切分看作是图到子图的断裂,从而最终实现粘连字符的切分。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 模式识别
  • 1.2 汉字识别
  • 1.2.1 汉字识别的分类
  • 1.2.2 汉字识别的基本原理及方法
  • 1.2.3 汉字识别的目的和意义
  • 1.2.4 手写体汉字特征研究的意义
  • 第二章 预处理
  • 2.1 二值化
  • 2.1.1 本文采用的方法
  • 2.1.2 实验结果
  • 2.2 平滑处理
  • 2.2.1 邻域平均法
  • 2.2.2 中值滤波
  • 2.2.3 频域处理
  • 2.2.4 算法设计
  • 第三章 图像的细化算法研究
  • 3.1 图像细化准则
  • 3.2 细化算法
  • 3.2.1 Skeleton(索引表)细化算法
  • 3.2.2 hall细化算法
  • 3.2.3 FPA细化算法
  • 3.2.4 本文采用的细化算法
  • 3.2.5 细化算法的进一步讨论
  • 第四章 单个手写体汉字识别研究
  • 4.1 汉字的特征
  • 4.1.1 标准汉字特征
  • 4.1.2 手写体汉字特征
  • 4.2 汉字特征提取的要求及困难
  • 4.3 基于图像细化的手写体的特征的研究
  • 4.3.1 特征点特征
  • 4.3.2 特征点的检测
  • 4.3.3 基于细化的笔划提取算法
  • 4.3.4 小结
  • 4.4 基于非细化的手写体特征研究
  • 4.4.1 轮廓特征
  • 4.4.2 外围特征
  • 4.4.3 内围特征
  • 4.4.4 背景特征
  • 4.4.5 多级穿刺特征
  • 4.4.6 笔画方向特征
  • 4.4.7 方向线素特征
  • 4.4.8 四平面笔画穿透数目特征
  • 4.4.9 基于网格技术的方法
  • 4.4.10 基于投影边界链的特征
  • 4.4.11 小结
  • 第五章 多个手写体汉字识别研究
  • 5.1 单字符的获取
  • 5.1.1 行切分
  • 5.1.2 连通分量的提取算法
  • 5.1.3 连通分量的拓扑关系
  • 5.1.4 连通分量的合并与分解的策略
  • 5.1.5 角点检测算法
  • 5.2 字符切分
  • 5.2.1 粘连字符的判断
  • 5.2.2 霍夫变换(Hough)
  • 5.2.3 基于投影的切分
  • 5.2.4 基于字符图像背景的切分
  • 5.2.5 基于图的字分离
  • 5.2.6 小结
  • 第六章 总结
  • 参考文献
  • 致谢
  • 攻读学位期间主要的研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    手写体汉字识别研究
    下载Doc文档

    猜你喜欢