有限集合污损汉字的识别

有限集合污损汉字的识别

论文摘要

有限集合污损汉字识别是汉字识别中具有重要意义的研究课题,它在汽车牌照字符识别、身份证件字符识别等方面发挥了很大作用。完整的印刷体汉字识别已经取得很好的成绩,但对于有污损的有限集汉字识别,目前还很少有人做这方面研究,所以具有很大的研究空间和实用意义。本文处理的对象是扫描得到的有一定程度污损的汉字,总共一百个样本,主要工作如下:1、汉字图象的预处理,由于光照强度和图像采集的角度不同,扫描得到的汉字图像可能出现大小不一、灰度相差很大等情况,所以需对图象进行平滑、二值化和归一化处理,本系统所选取的实验对象比较清晰,没有太多噪声干扰,所以用邻域(均值)滤波器,采用整体阈值的双峰法二值化,并根据图形的特点,对其实施线性归一化方法。2、字符的特征提取,首先简单介绍一下目前常用的一些特征提取算法,并针对本课题研究的有污损的有限字符集,提出了一种基于象素点八方向长的笔段特征提取算法,在此基础上,提出了基于先验知识的笔段合并算法,最终基本得到汉字图象的笔画。3、在识别阶段,本文采用了双层串行分类器结构,将有限字符集按结构的不同分为三类,即左右、上下、其它三类,并对左右和上下结构的字体以标准部首进行粗分类,以找到待识别汉字所在的子集,在细分类阶段,分三种情况分别在各类子字库中以待识别汉字或部首为基准按汉字信息链表匹配算法进行匹配。本系统的训练和测试样本共一百个,有的测试样本都有一定程度的污染,识别正确率约为92%。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 选题的背景和意义
  • 1.2 本系统的主要工作
  • 第二章 预处理
  • 2.1 灰度图像的平滑
  • 2.1.1 邻域平均法(均值滤波)
  • 2.1.2 统计排序滤波器
  • 2.1.3 频域低通滤波器
  • 2.1.4 同态滤波
  • 2.1.5 本文用的滤波方法
  • 2.2 二值化
  • 2.2.1 整体阈值法
  • 2.2.2 局部阈值法
  • 2.2.3 动态阈值二值化方法
  • 2.3 归一化
  • 2.3.1 线性归一化
  • 2.3.1.1 位置归一化
  • 2.3.1.2 大小归一化
  • 2.3.2 非线性归一化
  • 第三章 特征提取
  • 3.1 特征提取方法概述
  • 3.2 结构特征提取方法
  • 3.2.1 轮廓特征
  • 3.2.2 约束-连接图方法
  • 3.2.3 特征点特征
  • 3.3 统计特征提取方法
  • 3.3.1 正交变换特征
  • 3.3.2 笔画复杂指数(Complexity Index)和四边码(Four-side Code)
  • 3.3.3 笔画方向特征
  • 3.3.4 背景特征分布
  • 3.4 统计特征与结构特征相结合的特征提取方法
  • 3.4.1 基于网格技术的方法
  • 3.4.2 基于方向线素的方法
  • 3.4.3 基于隐马尔可夫模型的方法
  • 3.4.4 基于属性关系图的方法
  • 3.4.5 四平面笔画穿透数目特征
  • 3.5 本文采用的特征提取算法
  • 3.5.1 骨架点提取
  • 3.5.2 笔段提取
  • 3.5.3 笔段合并
  • 3.5.4 去伪笔画
  • 第四章 分类与识别
  • 4.1 常用的分类器
  • 4.1.1 距离分类器
  • 4.1.2 人工神经网络分类器(ANN分类器)
  • 4.1.3 支持向量机分类器(SVM分类器)
  • 4.1.4 基于模糊数学的识别方法
  • 4.1.5 小波分析粗分类
  • 4.1.6 结构关系粗分类
  • 4.2 汉字粗分类方法
  • 4.2.1 汉字的部首划分
  • 4.2.2 本系统的汉字粗分类方法
  • 4.3 本文采用的细分类方法
  • 4.3.1 汉字笔画信息链表的建立
  • 4.3.2 汉字信息链表匹配算法
  • 第五章 识别结果
  • 第六章 总结与展望
  • 参考文献
  • 致谢
  • 在学期间的研究成果及发表的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  

    有限集合污损汉字的识别
    下载Doc文档

    猜你喜欢