论文摘要
印刷体汉字识别是汉字识别技术的一个重要课题,涉及到图像处理和模式识别领域。随着智能化信息和网络时代的到来,印刷体汉字识别在证件识别、中文信息处理、办公自动化等方面都有着日益广泛的应用。预处理是印刷体汉字识别系统中的重要环节,预处理结果的好坏,直接影响了识别系统中识别率的高低。因此研究印刷体汉字识别的预处理技术具有重要的应用价值和理论意义。本文主要是对印刷体汉字识别的预处理研究,实现了对文档图像的自动预处理,取得了较好的效果。主要工作如下:(1)针对数码相机输入的图像由于光照不均匀、噪声等原因所造成质量不高的特点,对二值化方法进行大量的研究和实验,对预处理过程进行了改进。因为切分后单个字符图像面积小,像素灰度分布比较均匀,因此更容易分割背景和文字。在对整篇文档二值化处理后的基础上,增加了一步对单个字符图像二值化处理。实验结果表明,通过对单个字符的二值化处理,使汉字笔画噪声更小,汉字信息被更完整的保留。(2)对汉字细化算法进行了较深入的研究。本文对一种基于数学形态学的击中击不中汉字细化方法进行了改进,定义了一组新的结构元素序列,改进了算法流程,使在交叉点处的处理效果更好,笔画更平滑。并且在该细化结果的基础上,定义了一种新的汉字笔画提取方法。大量实验结果表明,该算法可以准确的提取汉字的水平、垂直、撇和捺的笔画,特别是对撇捺笔画的提取,保留了汉字的特征,且具有较好的连通性。(3)对汉字字体识别进行了初步的研究,应用基于多尺度小波纹理分析的方法,选取小波能量分布特征和小波能量比例分布特征,进行宋体、楷体、黑体、仿宋、隶书和幼圆六种汉字字体识别。此外,本文对印刷体汉字识别预处理过程中的关键步骤进行了研究,实现了对文档图像的倾斜矫正、版面分析、汉字切分,以及文字的归一化和平滑去噪,并取得了较好的效果。
论文目录
摘要Abstract1 绪论1.1 研究背景与意义1.2 印刷体汉字识别中存在的困难1.3 本文的主要工作1.4 本文的结构安排2 印刷体汉字识别概述2.1 汉字识别的分类2.2 印刷体汉字识别的研究历史和现状2.3 汉字识别的输入设备2.4 印刷体汉字识别的流程简介2.5 印刷体汉字识别方法2.5.1 统计特征字符识别技术2.5.2 结构特征字符识别技术2.5.3 基于人工神经网络的识别技术3 整体图像处理的方法研究3.1 图像灰度化3.2 图像二值化3.2.1 全局阈值二值化3.2.2 局部二值化3.2.3 动态阈值二值化3.2.4 实验结果与算法综评3.3 倾斜矫正3.3.1 基于投影图的方法3.3.2 直线拟合算法3.3.3 Hough变换方法3.3.4 旋转矫正文本图像3.4 版面分析3.4.1 基本概念3.4.2 搜索连通组件3.4.3 提取特殊组件3.4.4 文本块合并3.4.5 实验结果3.5 行字的切分3.5.1 行切分3.5.2 字切分4 单个字符处理的方法研究4.1 单个字符二值化4.1.1 单个字符二值化4.1.2 实验结果4.2 平滑去噪4.3 图像的归一化4.3.1 位置归一化方法4.3.2 大小归一化方法4.4 汉字的细化4.4.1 细化的基本概念和要求4.4.2 细化算法分类4.4.3 数学形态学细化算法4.4.4 改进汉字细化算法4.4.5 基于改进细化算法的汉字笔画提取4.4.6 实验结果与分析5 汉字多字体识别研究5.1 汉字的字体特征5.2 多尺度小波变换和图像分解5.2.1 二维小波变换5.2.2 二维Mallat分解算法实现小波分解5.2.3 小波函数的选取5.2.4 图像分解5.3 多尺度非冗余小波纹理文字种类识别算法d)'>5.3.1 小波能量分布特征(Fd)dp)'>5.3.2 小波能量比例分布特征(Fdp)5.3.3 距离函数5.4 实验结果及分析结论参考文献攻读硕士学位期间发表学术论文情况致谢
相关论文文献
标签:印刷体汉字识别论文; 预处理论文; 二值化论文; 汉字细化论文; 字体识别论文;