脱机印刷体维吾尔文字识别特征选择和分类器设计方法的研究

脱机印刷体维吾尔文字识别特征选择和分类器设计方法的研究

论文摘要

文字识别是模式识别的一个重要应用方向。目前,阿拉伯文字及以阿拉伯字母为基础的维吾尔文字识别技术研究相对滞后。发展维吾尔文字识别技术对研究我国西部地区少数民族历史文化、宗教信仰、古代文献和文字资料有重要意义。本文在对维吾尔文的特点和识别方面的难点进行详细分析的基础上,从文档图像预处理、文字切分、特征提取、分类器设计等方面对印刷体维吾尔文的识别技术进行了细致地研究和实验,研究成果主要有以下几个方面:1.对脱机印刷体维文的文档图像预处理方法进行了深入探讨,通过实验实现了图像二值化、平滑去噪、细化、归一化等处理,为进一步识别文字作出了准备。2.通过研究维文和拉丁文、中文等文字特点的不同,提出了先切分文字行、再切分字词、最后识别字母的识别方法和思路,并进行了大量的相关实验。也提出了使用隐形马尔可夫模型的整体识别方法的思路和实现设想。3.根据维吾尔文书写特点,提出了多种基于二值字符图像的特征提取方法:如:模板特征、环特征、连通区域特征、附加笔划特征、笔划密度特征、投影变换系数特征等,并将其作为BP神经网络分类器的输入特征进行训练。4.在字符图像预处理和字符特征提取的基础上,设计并实现了基于BP神经网络模型的维吾尔文字符识别分类器。该分类器通过样本集训练实验获得了收敛的结果并在维文字符识别实验中获得良好效果,印刷体字符识别率达到了98.21%。

论文目录

  • 中文摘要
  • Abstract
  • 第1章 绪论
  • 1.1 选题的背景与意义
  • 1.2 脱机字符识别技术概述
  • 1.3 印刷体字符识别技术及识别过程
  • 1.3.1 印刷体字符识别概述
  • 1.3.2 识别过程
  • 1.4 本文工作及创新
  • 第2章 维吾尔文字的特点及识别技术
  • 2.1 维吾尔文字发展概况
  • 2.2 维吾尔文字书写特点
  • 2.3 维吾尔文字识别技术研究现状和难点分析
  • 2.4 本章小结
  • 第3章 文字切分及预处理
  • 3.1 整体识别与文字切分
  • 3.1.1 整体识别
  • 3.1.2 文字切分
  • 3.2 图像预处理
  • 3.2.1 二值化处理
  • 3.2.2 细化
  • 3.2.3 文档图像平滑
  • 3.2.4 归一化
  • 3.3 本章小结
  • 第4章 文档图像中的特征提取与选择
  • 4.1 概述
  • 4.2 印刷体维吾尔文字特征提取及选择
  • 4.2.1 宽高比特征
  • 4.2.2 字符模板特征
  • 4.2.3 连通区域特征和欧拉数
  • 4.2.4 环特征
  • 4.2.5 投影变换系数特征
  • 4.2.6 笔划密度特征
  • 4.2.7 附加笔划特征
  • 4.3 本章小结
  • 第5章 维文字符识别分类器设计
  • 5.1 概述
  • 5.2 特征向量的组成
  • 5.3 训练样本的选择
  • 5.4 神经网络模式识别
  • 5.4.1 人工神经元结构
  • 5.4.2 激活函数
  • 5.4.3 网络模型
  • 5.5 BP 神经网络及训练
  • 5.5.1 BP 神经网络原理
  • 5.5.2 BP 网络训练过程
  • 5.6 维吾尔文字识别的BP 神经网络分类器设计
  • 5.7 维文字符分类器的MATLAB 实现
  • 5.8 实验结果分析
  • 5.9 本章小结
  • 第6章 总结与展望
  • 6.1 本文的工作总结
  • 6.2 展望
  • 参考文献
  • 攻读学位期间公开发表的论文
  • 致谢
  • 详细摘要
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    脱机印刷体维吾尔文字识别特征选择和分类器设计方法的研究
    下载Doc文档

    猜你喜欢