汉字字形形式化描述方法及应用研究

汉字字形形式化描述方法及应用研究

论文摘要

在汉字信息处理领域,现有的各种汉字字形形式化描述方法主要以文字研究和汉语教学研究中描写汉字形体结构的结构分析法为基础,采用人认知的结构类型、部件、笔画等构形单位对汉字字形进行分层描述。这些方法在字形拆分规则、结构类型划分、描述基元选取等方面存在着歧义和描述缺失,无法满足统一描述各种汉字(包括错字、古籍异体字、民俗拼合字)字形的需要,也无法支持字形自动比对计算处理,不能满足以字形比对计算分析为基础的各种应用需要,如教学研究中错字描述及偏误定量分析、古籍字形描述及比对分析、数字图书中生僻字形检索等。基于统计机器学习的汉字识别模型,对事先无法收集样本的错字、异体字、拼合字等特殊汉字,由于没有训练样本可学习,无法支持这类汉字的分类计算。对于可收集训练样本的一般汉字,识别模型中采用的字形统计特征难以逻辑解析来与人认知的字形结构类型、部件、笔画建立对应关系,是一种“黑盒”字形描述模型,无法支持面向人的各种字形比对分析应用需要。上述问题归结为汉字缺少统一有效的字形形式化描述和字形比对计算方法。本文工作围绕这一核心问题展开,面向字形比对分析应用建立了一种汉字字形描述方法及一组相关的字形比对算法和实用工具。主要创新性工作包括:1)提出一种笔段网格汉字字形形式化描述方法,用预先定义好长度、方向的直线段——笔段作为描述字形的基元,基元颗粒度适当、规范、无歧义,能统一描述一切可能今文字(包括错字、异体字、拼合字)字形骨架的异同。论证实验表明,这种方法与相同基元量点阵字形相比,描述同一汉字所需的有效基元更少,字形比对计算效率更高;描述不同汉字的字形间区分度大,有利于提高字形比对计算的准确性和可靠性,具有较高的性能代价比。2)基于笔段网格字形描述方法,本文进一步提出一组字形比对算法。其中,笔段上下文字形比对算法,以笔段为比对单位,在GB2312字符集汉字和部分错字、异体字上的测试实验表明,算法无需进行训练就能比对字形相似性,字形相似性比对结果受汉字结构类型、笔画划分影响小,在输入字形和比对字形网格大小一致时比对准确率可达100%;基于笔段组合的字形比对算法,在笔段网格字形描述基础上,能自动提取简单笔画、复合笔画,既能按简单笔画为单位进行字形比对,也能按复合笔画、简单笔画自适应进行字形比对。在同样测试汉字集上实验表明,基于简单笔画和复合笔画的字形比对算法无需训练就能进行字形相似度比对计算,比对结果对输入字形整体大小变化、斜笔画不同变形的敏感性降低,对依照约束描画的结构规范字形,比对准确率很高,可达到100%;比对单位大,比对效率高,可以适应大规模汉字字形的比对、查找;比对单位容易与人认知的构字单位建立对应关系,是一种“白盒”字形相似度比对计算方法,既适用整体字形比对,也适用局部字形比对,对结构比例失调较大的不规范字形能发现与结构规范字形的差异性,适合面向字形分析的应用需要。此外,建立了基于笔画关系矩阵的汉字结构关系描述和计算方法,可用于支持汉字结构类型的自动判别。3)由于汉字部件在汉字形体结构研究中的重要性,本文提出了在笔段网格描述的简单笔画上,附加组合关系标注的部件描述方法及部件自动发现算法,实验表明,该算法能很准确发现包含特定部件的汉字,而不受部件在字形中位置和大小的影响。4)本文还改进了《汉字信息字典》的汉字结构描述体系,提出了基于结构描述的字形相似度比对算法,实验表明,该法找到的相似字结构类型一致性好,与人认知的相似字吻合度较高(96%以上),适合结构类型划分无歧义汉字的相似性计算。5)本文最后设计实现了一个实用软件系统——汉字字形描述和自动比对分析工具,采用大众化手写描画方法来建立笔段网格字形描述,可以输入各种可以想见的汉字,包括错字、异体字和拼合字及其它相关信息,能自动将笔段网格字形转换成对应TrueType字模,与标准字符集内汉字一样被处理。对笔段网格字形可以自动进行整字、局部的字形比对,找出按相似度大小排序的相似字。采用这一工具完成了GBK字符集20902个汉字及北京语言大学留学生错字的描述,字形库应用于汉字教学错字偏误分析。这些工作有益于汉字字形描述的标准化,在基于汉字字形计算的各种应用领域:如标准字符集外汉字的输入、我国数字图书馆建设、汉语教学研究和国际推广、汉字文化历史研究、社会管理信息化等具有应用前景。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 问题的缘起
  • 1.2 汉字字形描述研究现状综述
  • 1.2.1 汉字字形形式化描述研究成果简介
  • 1.2.2 成果评述及分析
  • 1.3 本文的研究内容、目标及意义
  • 1.4 论文的组织
  • 第2章 基于结构分析的字形比对计算
  • 2.1 汉字字形的改进结构描述
  • 2.2 基于结构描述的汉字字形比对算法
  • 2.3 本章小结
  • 第3章 笔段网格汉字字形描述方法
  • 3.1 总体设计目标及设计思想
  • 3.2 笔段网格描述方法的形式化定义
  • 3.2.1 笔段基元
  • 3.2.2 汉字的笔段网格字形描述
  • 3.3 笔段网格描述方法的论证实验
  • 3.3.1 实验结果及分析
  • 3.3.2 笔段网格描述方法的特点
  • 3.4 本章小结
  • 第4章 基于笔段网格描述的汉字字形比对计算
  • 4.1 基于笔段上下文的字形比对计算
  • 4.1.1 字形比对计算的有关术语
  • 4.1.2 基于笔段上下文的字形比对算法
  • 4.2 基于笔段网格字形的简单笔画及自动提取
  • 4.2.1 简单笔画定义
  • 4.2.2 简单笔画提取算法
  • 4.3 基于简单笔画的字形比对计算
  • 4.3.1 简单笔画水平转角及差异度计量方法
  • 4.3.2 判断简单笔画组、长简单笔画的比对算法
  • 4.4 基于笔段网格字形的复合笔画及自动提取
  • 4.4.1 复合笔画定义
  • 4.4.2 基于拓扑排序的复合笔画提取算法
  • 4.5 基于复合笔画的字形比对计算
  • 4.5.1 复合笔画类型差异度计量方法
  • 4.5.2 复合笔画、简单笔画自适应字形比对算法
  • 4.6 基于笔段网格字形的汉字结构关系描述
  • 4.7 本章小结
  • 第5章 基于笔段网格描述的汉字部件分析计算
  • 5.1 汉字部件简介
  • 5.1.1 现代汉字学关于“部件”的定义
  • 5.1.2 汉字部件研究的意义
  • 5.2 汉字部件的笔段网格描述
  • 5.3 汉字部件的自动分析算法
  • 5.4 实验结果及分析
  • 5.5 本章小结
  • 第6章 汉字字形描述及比对分析系统
  • 6.1 系统设计目标
  • 6.2 系统主要功能的设计与实现
  • 6.3 系统的使用及改进
  • 6.4 本章小结
  • 结论
  • 参考文献
  • 附录
  • 攻读博士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].基于面向对象思想的作战单位形式化描述方法[J]. 现代防御技术 2015(06)
    • [2].不确定性作战任务形式化描述方法[J]. 指挥控制与仿真 2014(03)
    • [3].形式化描述方法在地理信息系统中应用综述[J]. 测绘工程 2014(12)
    • [4].基于进程代数的服务形式化描述方法[J]. 清华大学学报(自然科学版) 2012(12)
    • [5].统一的安全属性形式化描述方法的研究[J]. 计算机科学 2008(09)
    • [6].P2P网络模型的形式化描述方法(英文)[J]. Journal of Southeast University(English Edition) 2009(01)
    • [7].基于XML的安全协议形式化描述方法[J]. 军事通信技术 2009(01)
    • [8].一种编队作战计划形式化描述方法研究[J]. 舰船电子工程 2015(12)
    • [9].设计模式形式化描述方法的研究与实现[J]. 价值工程 2012(06)
    • [10].一种服务网络拓扑结构的形式化描述方法[J]. 微计算机信息 2012(08)
    • [11].制造业务过程动态变更及其形式化描述方法[J]. 制造业自动化 2016(07)
    • [12].支持模型驱动开发的软构件形式化描述方法[J]. 计算机应用 2015(09)
    • [13].用例模型的Z语言形式化描述方法[J]. 信息技术 2013(03)
    • [14].AspectualACME语言切点指示器的形式化描述方法[J]. 计算机应用与软件 2011(11)
    • [15].软件体系结构获取过程的形式化描述方法比较[J]. 计算机工程 2009(21)
    • [16].设计模式的一种形式化描述方法[J]. 微电子学与计算机 2009(06)
    • [17].基于机会发现逻辑L_k的多智能体系统形式化描述方法[J]. 科学技术与工程 2013(07)
    • [18].面向方面软件体系结构编织的形式化描述方法[J]. 计算机应用研究 2016(08)
    • [19].浅析形式化描述方法的应用[J]. 电子技术与软件工程 2014(10)
    • [20].服务计算新模式:雾计算[J]. 上海电机学院学报 2012(05)
    • [21].基于多维整数空间的安全策略冲突检测与消解[J]. 计算机工程 2009(04)
    • [22].组合服务控制流测试[J]. 北京航空航天大学学报 2009(01)
    • [23].机会发现在多智能体系统中的形式化描述方法[J]. 计算机工程 2011(11)
    • [24].多级安全数据库推理通道综述[J]. 软件导刊 2011(07)
    • [25].C~4ISR体系结构服务视图及其演化的形式化描述方法[J]. 国防科技大学学报 2011(03)
    • [26].武器装备体系能力形式化描述研究[J]. 兵工自动化 2010(02)
    • [27].UML模型的B形式化描述方法研究[J]. 信息技术与信息化 2018(12)
    • [28].煤矿生产安全事故应急预案的结构化研究[J]. 煤炭技术 2015(06)
    • [29].基于编译技术的协议自动化解析程序的设计[J]. 电子设计工程 2012(13)
    • [30].基于LTL的交通灯系统形式化描述方法[J]. 哈尔滨师范大学自然科学学报 2009(06)

    标签:;  ;  ;  ;  ;  

    汉字字形形式化描述方法及应用研究
    下载Doc文档

    猜你喜欢