论文摘要
汉字是历史悠久的中华民族文化的结晶,闪烁着中国人民智慧的光芒。随着科学技术的不断进步和信息时代的不断发展,汉字在世界上已经有越来越多的使用人口,因此计算机自动汉字识别在模式识别领域也越来越受到研究人员的关注。汉字识别一般分为印刷体汉字识别和手写体汉字识别两类。到目前为止,印刷体汉字识别已经实用化,并且向更高性能、更完善的用户界面方向发展。而手写体汉字识别,特别是自由手写体汉字识别一直是模式识别研究领域中的难点,还处于实验室阶段。本文就自由手写体汉字识别过程中的特征选择、特征提取进行了探索性研究。特征选择是模式识别中处理原始特征的一种重要技术。其目的是去掉无用、不相关或冗余的特征。本文对特征选择算法FOS进行了改进,提出了一种新的特征选择算法MFOS。改进后的算法所选择的特征能更准确地代表模式。该算法提取了模式中的重要特征信息,同时减少了特征之间的相关性,能有效地对模式进行分类。特征提取是汉字识别过程中的关键环节。近20多年来,中外学者已经做了大量的研究工作,提出了许多不同的特征提取方法。这些特征主要分成两大类:统计特征和结构特征。其中统计特征抽取包括抽取文字背景轮廓特征、笔画方向特征等,结构特征的抽取主要是基于特征点、笔段、笔画等。针对手写体汉字识别过程中的特征提取,本文提出了一种新的抽取笔画平面的方法。对每幅经过规范化后的图像进行笔画平面提取,优越性主要在于能够根据单个汉字的汉字点阵每一条横向、竖向以及斜向扫描线(撇捺笔画平面)上的黑像素数目决定是否抽取该扫描线上的黑像素点,抓住了每幅汉字图像的一些细微信息。理论分析和实验结果表明这种算法是有效的。基于笔画平面抽取和动态网格划分,本文提出一种笔画平面与模糊隶属度相结合的手写体汉字特征提取方法。考虑到重叠动态网格可以克服对于笔画位移和局部变形的敏感性,用模糊隶属度表示网格中的每个点构成汉字图像的重要程度。首先用动态网格将汉字图像分别划分成横、竖、撇、捺四个笔画平面,然后赋予每个网格中的点模糊隶属度,针对每个网格求加权累积直方图,最终获得汉字特征。该方法克服了汉字特征抽取过程中因笔画粗细不均、笔画长短变形等引起的特征抽取不稳定问题。实验结果表明这种汉字特征抽取方法是有效的。