基于大规模无约束数据的书写者自适应的中文手写识别系统研究

基于大规模无约束数据的书写者自适应的中文手写识别系统研究

论文摘要

中文手写文字识别一直以来都是模式识别领域的一个热点研究方向。同时,无约束的中文手写识别由于其用户书写风格的多样性及手写样本的多变性,长期成为模式识别领域的一大难题。虽然规范的有约束的中文手写识别技术已经取得了非常大的发展,识别率已经达到98%以上,然而无约束的中文手写识别的识别率却远远低于规范的有约束的中文手写识别,识别率仅能达到93%左右。因此,使无约束的中文手写识别达到令人满意的识别性能就是一个急需解决的重要问题。现如今,诸如智能手机,个人掌上电脑,电纸书和平板电脑等带有触摸屏幕的手持电子设备非常流行和普及,这使得在这些电子设备上手写输入方法变得越来越重要。然而由于在实验室采集的手写数据非常有限而不能涵盖所有书写风格,导致在实际应用中手写识别率并不能达到令人满意的效果。尤其是对于某些特定用户,由于其特殊的书写风格,导致对这些用户的识别性能是难以接受的。针对以上的问题,本文致力于研究基于大规模无约束手写数据的书写者自适应的中文手写识别技术,这种技术采用大规模的无约束的手写数据来训练分类器,保证了训练样本中含有尽可能多的书写风格,进而满足大部分书写者的书写体验。同时,本文提出的用户自适应算法可以对特定用户的书写风格进行自适应学习,从而提高该用户的识别率,使该用户获得“越写越准”的用户体验。然而这项研究工作面临许多技术难题,包括,汉字书写风格多变的问题,汉字结构复杂并具有许多难以区分的相似字的问题,数据库的采集与整理的问题,增量学习中原始分类器词典的压缩问题,增量学习中对普通用户的识别率有所降低的问题,以及在鉴别特征空间(Discriminative Feature Space)进行增量学习的问题。本文围绕着这些难点对基于大规模无约束手写数据的书写者自适应的中文手写识别技术展开了一系列的研究,主要工作包括:1.针对中文手写单字识别技术进行了介绍和分析研究。包括手写文字的预处理、特征提取和分类器结合的算法设计等。在此基础上,本文提出了快速的手写识别系统和精确的手写识别系统。实验结果表明,本文提出的快速的手写识别系统的分类器词典大小仅为2Mb,而识别速度达到1.7ms/字。而精确的手写识别系统则可以明显的提高识别率,在SCUT-COUCH2009数据库上可以达到97.04%的识别率,而在CAISA-OLHWDB1数据库上则可达到93.57%。2.针对现如今公开的手写中文数据库手写样本数量有限,涵盖的书写风格和类别数太少的问题,本文采集和整理出了一套完整的无约束的手写数据库。该数据库涵盖类别非常广泛,包括简体单字、繁体单字、中文词组、汉语拼音、英文字母、阿拉伯数字、常用符号和联机文本行等手写数据。该数据库已完成了由190多人书写的完整的数据,字符总数超过3,600,000个。同时,该数据库是第一款公开的拥有大词汇量,高频中文词组和汉语拼音的联机中文手写体数据库,它为联机手写中文词组识别和手写拼音识别等研究领域提供了基础的数据。另外,我们还通过网络采集了大量真实的手写文字样本,总人数超过20万人次,而手写样本超过150,000,000个。这对中文手写识别的研究提供了有力的帮助。3.针对目前提出的增量的修正二次判决函数(Incremental Modified QuadraticDiscriminant Fuction, IMQDF)方法需要巨大的参数存储量,同时会降低对于普通用户书写的识别率的问题,本文提出了一种平滑压缩的IMQDF算法。这种平滑压缩算法可以大幅降低IMQDF算法所需的参数存储量,仅为原存储量的1/50,同时还可以相对提高对于该特定用户和其他普通用户的书写识别率。同时,本文还提出了一种基于特征子空间的IMQDF算法,这种算法可以快速的将MQDF分类器变换到新的子空间中,大大的降低了运算时间。4.针对目前许多先进的手写识别算法由于其运算复杂,存储量大等原因,无法在电子设备中应用的问题,本文提出并设计了一种基于云计算平台的手写识别系统。由于云服务器端的强大的计算能力以及足够大的存储空间,更加精确的手写分类器以及用户书写自适应系统等许多先进的手写识别算法得以应用其中。因此不仅可以提高普通用户的识别率,还可以使特定用户获得“越写越准”的用户体验。总之,基于大规模无约束手写数据的书写者自适应的中文手写识别技术的研究是一个涉及手写文字识别、机器学习、图像处理和增量学习等多个领域的综合研究项目。通过对特定用户的书写风格的增量学习,可以大大提高对该用户的书写样本的识别率,同时可以不降低对于其他普通用户的识别率,这可以让所有用户获得更人性化的用户体验。这些特点都说明用户自适应的中文手写识别技术将是中文手写识别的一个重要的发展方向。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.2 研究的问题
  • 1.3 本文的工作
  • 第二章 中文手写识别及书写自适应技术的研究现状
  • 2.1 中文手写文字识别的研究现状
  • 2.2 书写者自适应技术的研究现状
  • 2.3 手写文字数据库的研究现状
  • 2.4 本章小结
  • 第三章 多种手写识别方法及其集成技术的研究
  • 3.1 预处理技术
  • 3.1.1 弹性网格技术的研究
  • 3.1.2 手写汉字的旋转纠正技术
  • 3.1.3 联机数据的脱机变换技术
  • 3.2 特征提取及虚拟笔画技术研究
  • 3.2.1 梯度特征提取
  • 3.2.2 8 方向特征提取
  • 3.2.3 虚拟笔画技术的分析与研究
  • 3.3 特征选择技术的研究
  • 3.3.1 线性判别分析(Linear Discriminant Analysis, LDA)
  • 3.3.2 鉴别局部配准(Discriminative Locality Alignment,DLA)
  • 3.4 手写识别分类器技术的研究
  • 3.4.1 最小距离分类器
  • 3.4.2 MQDF 分类器
  • 3.4.3 压缩的 MQDF 分类器
  • 3.4.4 分类融合技术的研究
  • 3.5 手写识别系统的研究
  • 3.5.1 快速的小存储量的手写识别系统研究
  • 3.5.2 高识别性能的手写识别系统研究
  • 3.6 实验结果
  • 3.6.1 实验数据库介绍
  • 3.6.2 手写文字的旋转纠正技术实验
  • 3.6.3 联机数据的脱机转换技术实验
  • 3.6.4 多种特征融合实验
  • 3.6.5 不同的手写识别系统对比实验
  • 3.7 本章小结
  • 第四章 SCUT-COUCH2009 联机手写数据库采集与分析
  • 4.1 SCUT-COUCH2009 数据库介绍
  • 4.2 SCUT-COUCH2009 数据库采集的准备工作
  • 4.2.1 采集程序设计
  • 4.2.2 语料素材选择
  • 4.2.3 数据采集人员选择
  • 4.2.4 数据采集规则
  • 4.3 SCUT-COUCH2009 数据库的后期处理工作
  • 4.3.1 数据检查与修正
  • 4.3.2 数据存储的基本结构
  • 4.3.3 数据手工切分与标定
  • 4.4 SCUT-COUCH2009 数据库的样本分析
  • 4.4.1 样本笔画的统计规律
  • 4.4.2 样本的多样性分析
  • 4.5 SCUT-COUCH2009 数据库的基准测试
  • 4.5.1 所有子集的基准测试
  • 4.5.2 不同子集组合的基准测试
  • 4.5.3 三个词组子集的基准测试
  • 4.6 gPen 大规模真实数据库的采集与分析
  • 4.6.1 gPen 数据库介绍
  • 4.6.2 gPen 数据库统计分析
  • 4.6.3 gPen 数据库基准测试
  • 4.7 本章小结
  • 第五章 基于增量 MQDF 的中文书写自适应技术研究
  • 5.1 ILDA 技术研究
  • 5.2 IMQDF 技术研究
  • 5.2.1 压缩的 IMQDF 技术研究
  • 5.3 平滑压缩的 IMQDF 技术研究
  • 5.4 基于 ILDA 子空间的 IMQDF 技术研究
  • 5.5 实验结果
  • 5.5.1 实验数据库介绍
  • 5.5.2 几种增量 MQDF 算法的存储量需求对比
  • 5.5.3 几种增量 MQDF 算法的计算复杂度对比
  • 5.5.4 几种增量 MQDF 算法对于特定用户识别性能的提升对比
  • 5.5.5 几种增量 MQDF 算法对于普通用户识别性能的影响对比
  • 5.6 本章小结
  • 第六章 基于云计算的手写识别系统研究
  • 6.1 云计算介绍
  • 6.1.1 云计算的概念
  • 6.1.2 云计算的技术特点
  • 6.1.3 云计算的优势
  • 6.2 云计算手写识别系统介绍
  • 6.2.1 云手写识别系统框架介绍
  • 6.2.2 云手写识别系统的服务器端介绍
  • 6.2.3 云手写识别系统的客户端介绍
  • 6.3 实验结果
  • 6.3.1 云手写识别系统的识别性能对比实验
  • 6.3.2 云手写识别系统的用户书写自适应实验
  • 6.5.3 云手写服务器的多用户并发实验
  • 6.6 本章小结
  • 结论
  • 参考文献
  • 攻读博士学位期间取得的研究成果
  • 致谢
  • 附件
  • 相关论文文献

    • [1].关于执笔方法[J]. 基础教育课程 2017(09)
    • [2].方文竹的诗[J]. 青海湖 2016(11)
    • [3].全国代表畅谈文艺[J]. 新民周刊 2016(48)
    • [4].苦难的书写者[J]. 厦门文学 2016(12)
    • [5].小对话[J]. 山西文学 2017(01)
    • [6].山川展开广阔的纸张(组诗)[J]. 绿风 2017(01)
    • [7].包丽英:蒙古民族辉煌历史的书写者[J]. 草原 2017(04)
    • [8].书写者还乡的道路[J]. 扬子江诗刊 2017(04)
    • [9].书画无为品自高[J]. 天工 2017(03)
    • [10].北方的书写者[J]. 芳草(经典阅读) 2015(Z1)
    • [11].编者的话[J]. 党课参考 2019(22)
    • [12].书写者探寻“辛亥秋保路死事纪念碑”[J]. 先锋 2017(09)
    • [13].书写者(外一章)[J]. 鸭绿江 2020(20)
    • [14].书写者(外二首)[J]. 中国诗歌 2010(05)
    • [15].寂静书写者[J]. 百花洲 2010(03)
    • [16].键盘时代说写字[J]. 人民周刊 2020(13)
    • [17].朵云讲堂——手札的欣赏与书写(四)[J]. 书法 2010(07)
    • [18].做伟大时代的书写者[J]. 延安文学 2017(06)
    • [19].徘徊于语言中的书写者[J]. 东方艺术 2017(20)
    • [20].徽州祭簿的媒介叙事与乡民记忆建构研究[J]. 现代传播(中国传媒大学学报) 2020(03)
    • [21].我眼中的马超:一位痴绝书写者的抉择[J]. 东方艺术 2017(24)
    • [22].鲍十:喧嚣时代的乡土记忆书写者(评论)[J]. 作品 2019(04)
    • [23].回到平常状态的书法[J]. 艺术市场 2020(12)
    • [24].小学生书写现状分析及策略[J]. 陕西教育(高教版) 2009(10)
    • [25].红船 历史的书写者和见证者[J]. 新湘评论 2016(14)
    • [26].书写者的暴力——清季革命、君宪两派论战背景下妓女形象的扭曲[J]. 近代史学刊 2009(00)
    • [27].习作点评[J]. 中国钢笔书法 2009(06)
    • [28].刘双隆诗二首[J]. 北方作家 2009(02)
    • [29].时光的书写者[J]. 汽车之友 2018(03)
    • [30].汉魏两晋南北朝时期的佛经书写者——基于取经与译经活动的考查[J]. 中国书法 2019(17)

    标签:;  ;  ;  ;  ;  

    基于大规模无约束数据的书写者自适应的中文手写识别系统研究
    下载Doc文档

    猜你喜欢