论文摘要
脱机汉字识别是模式识别的一个重要研究领域,是汉字信息处理的重要接口技术。经过几十年的研究,在印刷体识别、银行支票、邮政系统等方面取得了重要成果。但在整个OCR领域,尤其是自由手写体领域,目前在提高识别率方面还存在相当大的困难,成为该领域最具挑战的课题。论文做的主要工作如下:首先,对图像进行了预处理,去除与文字无关的信息,如色彩信息;针对一般文本图像,本文设计了一种算法,来获取文字前景图像。从效果上看,一方面,去除了较多的背景信息,另一方面,较好地保留了文字的信息。其次,综述了用于单个手写体汉字识别的特征,如轮廓特征、方向线素特征、网格特征、背景特征等。重点介绍了方向线素特征的提取方法以及基于统计的网格特征的研究成果,并分析了这些特征在文字识别方面的优劣性。然后对细化算法的分类进行了深入的探讨,如可以分为基于象素判断的算法和基于边缘侵蚀的算法。本文提出了一种基于保留骨架点的并行算法,该算法对图像细化有较好的效果。再次,对多行手写体识别的特点进行了研究,是文章的主要的研究成果。首先提出了连通分支的标记方法,由于该方法处理的数据量大,文章先对文本图像进行了行切分的预处理,有效减少了数据量,在得到行后,由于文字部件结构复杂,又提出了一种基于连通分支合并和分解的方法,得到了较佳的处理效果。最后,针对手写体普遍出现粘连,重叠的现象,综述了前人的成果,如角点检测算法,基于字符图像背景的切分算法。并从另一角度,即把整个文字图像看作一个图,对图像的切分看作是图到子图的断裂,从而最终实现粘连字符的切分。
论文目录
摘要ABSTRACT第一章 绪论1.1 模式识别1.2 汉字识别1.2.1 汉字识别的分类1.2.2 汉字识别的基本原理及方法1.2.3 汉字识别的目的和意义1.2.4 手写体汉字特征研究的意义第二章 预处理2.1 二值化2.1.1 本文采用的方法2.1.2 实验结果2.2 平滑处理2.2.1 邻域平均法2.2.2 中值滤波2.2.3 频域处理2.2.4 算法设计第三章 图像的细化算法研究3.1 图像细化准则3.2 细化算法3.2.1 Skeleton(索引表)细化算法3.2.2 hall细化算法3.2.3 FPA细化算法3.2.4 本文采用的细化算法3.2.5 细化算法的进一步讨论第四章 单个手写体汉字识别研究4.1 汉字的特征4.1.1 标准汉字特征4.1.2 手写体汉字特征4.2 汉字特征提取的要求及困难4.3 基于图像细化的手写体的特征的研究4.3.1 特征点特征4.3.2 特征点的检测4.3.3 基于细化的笔划提取算法4.3.4 小结4.4 基于非细化的手写体特征研究4.4.1 轮廓特征4.4.2 外围特征4.4.3 内围特征4.4.4 背景特征4.4.5 多级穿刺特征4.4.6 笔画方向特征4.4.7 方向线素特征4.4.8 四平面笔画穿透数目特征4.4.9 基于网格技术的方法4.4.10 基于投影边界链的特征4.4.11 小结第五章 多个手写体汉字识别研究5.1 单字符的获取5.1.1 行切分5.1.2 连通分量的提取算法5.1.3 连通分量的拓扑关系5.1.4 连通分量的合并与分解的策略5.1.5 角点检测算法5.2 字符切分5.2.1 粘连字符的判断5.2.2 霍夫变换(Hough)5.2.3 基于投影的切分5.2.4 基于字符图像背景的切分5.2.5 基于图的字分离5.2.6 小结第六章 总结参考文献致谢攻读学位期间主要的研究成果
相关论文文献
标签:字符识别论文; 细化论文; 手写体特征论文; 连通分量论文;