论文摘要
中文手写文字识别一直以来都是模式识别领域的一个热点研究方向。同时,无约束的中文手写识别由于其用户书写风格的多样性及手写样本的多变性,长期成为模式识别领域的一大难题。虽然规范的有约束的中文手写识别技术已经取得了非常大的发展,识别率已经达到98%以上,然而无约束的中文手写识别的识别率却远远低于规范的有约束的中文手写识别,识别率仅能达到93%左右。因此,使无约束的中文手写识别达到令人满意的识别性能就是一个急需解决的重要问题。现如今,诸如智能手机,个人掌上电脑,电纸书和平板电脑等带有触摸屏幕的手持电子设备非常流行和普及,这使得在这些电子设备上手写输入方法变得越来越重要。然而由于在实验室采集的手写数据非常有限而不能涵盖所有书写风格,导致在实际应用中手写识别率并不能达到令人满意的效果。尤其是对于某些特定用户,由于其特殊的书写风格,导致对这些用户的识别性能是难以接受的。针对以上的问题,本文致力于研究基于大规模无约束手写数据的书写者自适应的中文手写识别技术,这种技术采用大规模的无约束的手写数据来训练分类器,保证了训练样本中含有尽可能多的书写风格,进而满足大部分书写者的书写体验。同时,本文提出的用户自适应算法可以对特定用户的书写风格进行自适应学习,从而提高该用户的识别率,使该用户获得“越写越准”的用户体验。然而这项研究工作面临许多技术难题,包括,汉字书写风格多变的问题,汉字结构复杂并具有许多难以区分的相似字的问题,数据库的采集与整理的问题,增量学习中原始分类器词典的压缩问题,增量学习中对普通用户的识别率有所降低的问题,以及在鉴别特征空间(Discriminative Feature Space)进行增量学习的问题。本文围绕着这些难点对基于大规模无约束手写数据的书写者自适应的中文手写识别技术展开了一系列的研究,主要工作包括:1.针对中文手写单字识别技术进行了介绍和分析研究。包括手写文字的预处理、特征提取和分类器结合的算法设计等。在此基础上,本文提出了快速的手写识别系统和精确的手写识别系统。实验结果表明,本文提出的快速的手写识别系统的分类器词典大小仅为2Mb,而识别速度达到1.7ms/字。而精确的手写识别系统则可以明显的提高识别率,在SCUT-COUCH2009数据库上可以达到97.04%的识别率,而在CAISA-OLHWDB1数据库上则可达到93.57%。2.针对现如今公开的手写中文数据库手写样本数量有限,涵盖的书写风格和类别数太少的问题,本文采集和整理出了一套完整的无约束的手写数据库。该数据库涵盖类别非常广泛,包括简体单字、繁体单字、中文词组、汉语拼音、英文字母、阿拉伯数字、常用符号和联机文本行等手写数据。该数据库已完成了由190多人书写的完整的数据,字符总数超过3,600,000个。同时,该数据库是第一款公开的拥有大词汇量,高频中文词组和汉语拼音的联机中文手写体数据库,它为联机手写中文词组识别和手写拼音识别等研究领域提供了基础的数据。另外,我们还通过网络采集了大量真实的手写文字样本,总人数超过20万人次,而手写样本超过150,000,000个。这对中文手写识别的研究提供了有力的帮助。3.针对目前提出的增量的修正二次判决函数(Incremental Modified QuadraticDiscriminant Fuction, IMQDF)方法需要巨大的参数存储量,同时会降低对于普通用户书写的识别率的问题,本文提出了一种平滑压缩的IMQDF算法。这种平滑压缩算法可以大幅降低IMQDF算法所需的参数存储量,仅为原存储量的1/50,同时还可以相对提高对于该特定用户和其他普通用户的书写识别率。同时,本文还提出了一种基于特征子空间的IMQDF算法,这种算法可以快速的将MQDF分类器变换到新的子空间中,大大的降低了运算时间。4.针对目前许多先进的手写识别算法由于其运算复杂,存储量大等原因,无法在电子设备中应用的问题,本文提出并设计了一种基于云计算平台的手写识别系统。由于云服务器端的强大的计算能力以及足够大的存储空间,更加精确的手写分类器以及用户书写自适应系统等许多先进的手写识别算法得以应用其中。因此不仅可以提高普通用户的识别率,还可以使特定用户获得“越写越准”的用户体验。总之,基于大规模无约束手写数据的书写者自适应的中文手写识别技术的研究是一个涉及手写文字识别、机器学习、图像处理和增量学习等多个领域的综合研究项目。通过对特定用户的书写风格的增量学习,可以大大提高对该用户的书写样本的识别率,同时可以不降低对于其他普通用户的识别率,这可以让所有用户获得更人性化的用户体验。这些特点都说明用户自适应的中文手写识别技术将是中文手写识别的一个重要的发展方向。
论文目录
相关论文文献
- [1].关于执笔方法[J]. 基础教育课程 2017(09)
- [2].方文竹的诗[J]. 青海湖 2016(11)
- [3].全国代表畅谈文艺[J]. 新民周刊 2016(48)
- [4].苦难的书写者[J]. 厦门文学 2016(12)
- [5].小对话[J]. 山西文学 2017(01)
- [6].山川展开广阔的纸张(组诗)[J]. 绿风 2017(01)
- [7].包丽英:蒙古民族辉煌历史的书写者[J]. 草原 2017(04)
- [8].书写者还乡的道路[J]. 扬子江诗刊 2017(04)
- [9].书画无为品自高[J]. 天工 2017(03)
- [10].北方的书写者[J]. 芳草(经典阅读) 2015(Z1)
- [11].编者的话[J]. 党课参考 2019(22)
- [12].书写者探寻“辛亥秋保路死事纪念碑”[J]. 先锋 2017(09)
- [13].书写者(外一章)[J]. 鸭绿江 2020(20)
- [14].书写者(外二首)[J]. 中国诗歌 2010(05)
- [15].寂静书写者[J]. 百花洲 2010(03)
- [16].键盘时代说写字[J]. 人民周刊 2020(13)
- [17].朵云讲堂——手札的欣赏与书写(四)[J]. 书法 2010(07)
- [18].做伟大时代的书写者[J]. 延安文学 2017(06)
- [19].徘徊于语言中的书写者[J]. 东方艺术 2017(20)
- [20].徽州祭簿的媒介叙事与乡民记忆建构研究[J]. 现代传播(中国传媒大学学报) 2020(03)
- [21].我眼中的马超:一位痴绝书写者的抉择[J]. 东方艺术 2017(24)
- [22].鲍十:喧嚣时代的乡土记忆书写者(评论)[J]. 作品 2019(04)
- [23].回到平常状态的书法[J]. 艺术市场 2020(12)
- [24].小学生书写现状分析及策略[J]. 陕西教育(高教版) 2009(10)
- [25].红船 历史的书写者和见证者[J]. 新湘评论 2016(14)
- [26].书写者的暴力——清季革命、君宪两派论战背景下妓女形象的扭曲[J]. 近代史学刊 2009(00)
- [27].习作点评[J]. 中国钢笔书法 2009(06)
- [28].刘双隆诗二首[J]. 北方作家 2009(02)
- [29].时光的书写者[J]. 汽车之友 2018(03)
- [30].汉魏两晋南北朝时期的佛经书写者——基于取经与译经活动的考查[J]. 中国书法 2019(17)