论文摘要
本文致力于研究旋转方向无关的无约束中文手写词组识别技术,这种技术能让用户在没有字符框约束的书写区域内自然、流畅地以任意角度书写汉字词组。然而,这项研究面临着多项技术难题,包括:书写词组的旋转方向矫正问题,词组字符间笔画的粘连与重叠所带来的切分问题,汉字结构复杂与书写风格多变的问题,以及汉字词组词汇量庞大等问题。本文围绕着这些难点对中文手写词组的识别技术展开了一系列研究,主要工作包括:1.针对手写词组的倾斜矫正,提出了一种基于重心平衡的中文手写词组方向检测方法。实验结果表明,该方法能较好地将用户以任意倾斜角度(0°360°)书写的中文词组矫正到水平位置,从而使得本文提出的手写词组识别方法成为一种旋转方向无关的手写词组识别方法。2.用户在快速书写的过程中,字与字之间容易产生连笔的现象,而且用户如果书写的词组字间距很小,字与字之间也容易产生笔画粘连甚至部分笔画重叠等问题,针对这些问题,本文提出了一种基于笔段提取与启发式笔段拆分的过切分方法。实验结果表明,该方法能较好地将连笔、粘连笔画或部分重叠笔画切分开来,从而为后面的切分组合路径搜索打好了基础。3.对手写单字识别进行了深入研究,提出两种不同的识别方案,一种基于笔画矢量方向特征和动态时间规整(DTW)技术的联机汉字识别方法,另一种则基于两级LDA粗分类器和一级MQDF细分类器的多级脱机汉字识别方法,并将两种识别方案进行了集成。实验结果表明,联机与脱机识别技术有着较好的互补性,两者的集成大幅提高了手写汉字的识别效果。另外,针对汉字书写可能出现不同的书写风格,本文也对手写汉字的多模板建模进行了研究,为了提高多模板的代表性,提出一种基于简化引力模型的聚类方法,实验结果表明,该聚类方法能生成比传统K-Means聚类更优的多模板,即使通过最小分类错误率(MCE)训练方法对多模板进行训练调整,调整后的模板也要优于经过同样MCE训练调整后的K-Means聚类模板。4.针对手写词组的字符切分,提出一种基于识别的字符切分验证模型,并同时用到词典的信息对切分结果进行进一步确认,由于对切分出来的部分进行单字识别输出的是识别候选字序列,因此在切分路径的搜索过程中,只要每个切分部分的正确的结果位于该部分的识别候选字序列内,即使不是第一识别候选,也能在后续的基于词典信息的切分验证模型中将其找出组成正确的词组输出。另外,针对中文词组词汇量大的问题,本文采用了一种哈希词典技术,使词典搜索验证的时间复杂度为常数O(1)。实验结果表明,通过这种验证模型进行词组识别,由于利用了词组中单字间的上下文信息,识别率由单字识别的84.58%提高到91.67%,而错误率则由15.42%下降到5.23%,大幅下降了66.9%,从而显示出本文提出的中文手写词组识别方法的有效性,5.传统的高准确率MQDF分类器由于其参数存储量巨大,无法被应用于存储空间受限的手持设备如手机或掌上电脑上,为了使其能得到应用,让人们体验到这种技术带来的识别率的大幅提升,本文研究提出了一种基于子空间共享的矢量量化压缩技术,该技术能以牺牲较小的识别性能来换取大幅降低的识别引擎字典存储空间。本文将其应用在传统的LDA与MQDF分类器上,使得整体分类器字典的容量从76.4MB降到了2.06MB,大幅压缩了97.3%,而识别率则仅仅下降0.88%,仍然维持在97%以上的水平。通过这种技术,使得传统的高识别率MQDF分类器被移植到手机等手持设备上成为可能。总之,多字词的手写识别由于包含了上下文信息,只要切分问题能得以很好的解决,则对其的识别效果将优于单字的手写识别,而且多字词的连续输入相对于单个字符逐个逐框地输入更显得自然和人性化,这些特点都表明了多字词连续手写识别技术将是汉字手写识别技术未来的发展方向。