论文摘要
有限集合污损汉字识别是汉字识别中具有重要意义的研究课题,它在汽车牌照字符识别、身份证件字符识别等方面发挥了很大作用。完整的印刷体汉字识别已经取得很好的成绩,但对于有污损的有限集汉字识别,目前还很少有人做这方面研究,所以具有很大的研究空间和实用意义。本文处理的对象是扫描得到的有一定程度污损的汉字,总共一百个样本,主要工作如下:1、汉字图象的预处理,由于光照强度和图像采集的角度不同,扫描得到的汉字图像可能出现大小不一、灰度相差很大等情况,所以需对图象进行平滑、二值化和归一化处理,本系统所选取的实验对象比较清晰,没有太多噪声干扰,所以用邻域(均值)滤波器,采用整体阈值的双峰法二值化,并根据图形的特点,对其实施线性归一化方法。2、字符的特征提取,首先简单介绍一下目前常用的一些特征提取算法,并针对本课题研究的有污损的有限字符集,提出了一种基于象素点八方向长的笔段特征提取算法,在此基础上,提出了基于先验知识的笔段合并算法,最终基本得到汉字图象的笔画。3、在识别阶段,本文采用了双层串行分类器结构,将有限字符集按结构的不同分为三类,即左右、上下、其它三类,并对左右和上下结构的字体以标准部首进行粗分类,以找到待识别汉字所在的子集,在细分类阶段,分三种情况分别在各类子字库中以待识别汉字或部首为基准按汉字信息链表匹配算法进行匹配。本系统的训练和测试样本共一百个,有的测试样本都有一定程度的污染,识别正确率约为92%。
论文目录
摘要Abstract第一章 绪论1.1 选题的背景和意义1.2 本系统的主要工作第二章 预处理2.1 灰度图像的平滑2.1.1 邻域平均法(均值滤波)2.1.2 统计排序滤波器2.1.3 频域低通滤波器2.1.4 同态滤波2.1.5 本文用的滤波方法2.2 二值化2.2.1 整体阈值法2.2.2 局部阈值法2.2.3 动态阈值二值化方法2.3 归一化2.3.1 线性归一化2.3.1.1 位置归一化2.3.1.2 大小归一化2.3.2 非线性归一化第三章 特征提取3.1 特征提取方法概述3.2 结构特征提取方法3.2.1 轮廓特征3.2.2 约束-连接图方法3.2.3 特征点特征3.3 统计特征提取方法3.3.1 正交变换特征3.3.2 笔画复杂指数(Complexity Index)和四边码(Four-side Code)3.3.3 笔画方向特征3.3.4 背景特征分布3.4 统计特征与结构特征相结合的特征提取方法3.4.1 基于网格技术的方法3.4.2 基于方向线素的方法3.4.3 基于隐马尔可夫模型的方法3.4.4 基于属性关系图的方法3.4.5 四平面笔画穿透数目特征3.5 本文采用的特征提取算法3.5.1 骨架点提取3.5.2 笔段提取3.5.3 笔段合并3.5.4 去伪笔画第四章 分类与识别4.1 常用的分类器4.1.1 距离分类器4.1.2 人工神经网络分类器(ANN分类器)4.1.3 支持向量机分类器(SVM分类器)4.1.4 基于模糊数学的识别方法4.1.5 小波分析粗分类4.1.6 结构关系粗分类4.2 汉字粗分类方法4.2.1 汉字的部首划分4.2.2 本系统的汉字粗分类方法4.3 本文采用的细分类方法4.3.1 汉字笔画信息链表的建立4.3.2 汉字信息链表匹配算法第五章 识别结果第六章 总结与展望参考文献致谢在学期间的研究成果及发表的学术论文
相关论文文献
标签:汉字识别论文; 有限集论文; 笔段论文; 笔段合并论文; 笔画提取论文; 笔画信息链表论文; 链表匹配法论文;