印刷体汉字识别预处理的研究

印刷体汉字识别预处理的研究

论文摘要

印刷体汉字识别是汉字识别技术的一个重要课题,涉及到图像处理和模式识别领域。随着智能化信息和网络时代的到来,印刷体汉字识别在证件识别、中文信息处理、办公自动化等方面都有着日益广泛的应用。预处理是印刷体汉字识别系统中的重要环节,预处理结果的好坏,直接影响了识别系统中识别率的高低。因此研究印刷体汉字识别的预处理技术具有重要的应用价值和理论意义。本文主要是对印刷体汉字识别的预处理研究,实现了对文档图像的自动预处理,取得了较好的效果。主要工作如下:(1)针对数码相机输入的图像由于光照不均匀、噪声等原因所造成质量不高的特点,对二值化方法进行大量的研究和实验,对预处理过程进行了改进。因为切分后单个字符图像面积小,像素灰度分布比较均匀,因此更容易分割背景和文字。在对整篇文档二值化处理后的基础上,增加了一步对单个字符图像二值化处理。实验结果表明,通过对单个字符的二值化处理,使汉字笔画噪声更小,汉字信息被更完整的保留。(2)对汉字细化算法进行了较深入的研究。本文对一种基于数学形态学的击中击不中汉字细化方法进行了改进,定义了一组新的结构元素序列,改进了算法流程,使在交叉点处的处理效果更好,笔画更平滑。并且在该细化结果的基础上,定义了一种新的汉字笔画提取方法。大量实验结果表明,该算法可以准确的提取汉字的水平、垂直、撇和捺的笔画,特别是对撇捺笔画的提取,保留了汉字的特征,且具有较好的连通性。(3)对汉字字体识别进行了初步的研究,应用基于多尺度小波纹理分析的方法,选取小波能量分布特征和小波能量比例分布特征,进行宋体、楷体、黑体、仿宋、隶书和幼圆六种汉字字体识别。此外,本文对印刷体汉字识别预处理过程中的关键步骤进行了研究,实现了对文档图像的倾斜矫正、版面分析、汉字切分,以及文字的归一化和平滑去噪,并取得了较好的效果。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景与意义
  • 1.2 印刷体汉字识别中存在的困难
  • 1.3 本文的主要工作
  • 1.4 本文的结构安排
  • 2 印刷体汉字识别概述
  • 2.1 汉字识别的分类
  • 2.2 印刷体汉字识别的研究历史和现状
  • 2.3 汉字识别的输入设备
  • 2.4 印刷体汉字识别的流程简介
  • 2.5 印刷体汉字识别方法
  • 2.5.1 统计特征字符识别技术
  • 2.5.2 结构特征字符识别技术
  • 2.5.3 基于人工神经网络的识别技术
  • 3 整体图像处理的方法研究
  • 3.1 图像灰度化
  • 3.2 图像二值化
  • 3.2.1 全局阈值二值化
  • 3.2.2 局部二值化
  • 3.2.3 动态阈值二值化
  • 3.2.4 实验结果与算法综评
  • 3.3 倾斜矫正
  • 3.3.1 基于投影图的方法
  • 3.3.2 直线拟合算法
  • 3.3.3 Hough变换方法
  • 3.3.4 旋转矫正文本图像
  • 3.4 版面分析
  • 3.4.1 基本概念
  • 3.4.2 搜索连通组件
  • 3.4.3 提取特殊组件
  • 3.4.4 文本块合并
  • 3.4.5 实验结果
  • 3.5 行字的切分
  • 3.5.1 行切分
  • 3.5.2 字切分
  • 4 单个字符处理的方法研究
  • 4.1 单个字符二值化
  • 4.1.1 单个字符二值化
  • 4.1.2 实验结果
  • 4.2 平滑去噪
  • 4.3 图像的归一化
  • 4.3.1 位置归一化方法
  • 4.3.2 大小归一化方法
  • 4.4 汉字的细化
  • 4.4.1 细化的基本概念和要求
  • 4.4.2 细化算法分类
  • 4.4.3 数学形态学细化算法
  • 4.4.4 改进汉字细化算法
  • 4.4.5 基于改进细化算法的汉字笔画提取
  • 4.4.6 实验结果与分析
  • 5 汉字多字体识别研究
  • 5.1 汉字的字体特征
  • 5.2 多尺度小波变换和图像分解
  • 5.2.1 二维小波变换
  • 5.2.2 二维Mallat分解算法实现小波分解
  • 5.2.3 小波函数的选取
  • 5.2.4 图像分解
  • 5.3 多尺度非冗余小波纹理文字种类识别算法
  • d)'>5.3.1 小波能量分布特征(Fd
  • dp)'>5.3.2 小波能量比例分布特征(Fdp)
  • 5.3.3 距离函数
  • 5.4 实验结果及分析
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    印刷体汉字识别预处理的研究
    下载Doc文档

    猜你喜欢