朝鲜文字信息结构的研究与应用

论文摘要

朝鲜文字具有500多年的历史,拥有汉字和西方文字的共同特征,同时还具有自身独特的文字结构,是构字规则与发音规则明确、使用人口分布较广、具有较大影响力的东方文字,在中朝韩三国朝鲜民族的文化与历史发展历程中发挥了巨大作用。朝鲜文字系统是文字结构复杂、数量巨大的符号系统。运用信息论、机器学习等理论和方法研究朝鲜文字结构是朝鲜文字信息的智能化处理所面临的重要课题。本学位论文在研究朝鲜文字组成规则的基础上,研究了朝鲜文字结构的统计特性,为朝鲜文字识别的粗分类提供了决策依据。首先,基于朝鲜文字可唯一线性化的特性,根据组成文字的基本字母出现情况,提出了文字的结构距离的概念与简便的距离计算方法,描述了不同结构文字之间差异的度量方法。根据所提出的结构距离概念,把整个文字集划分为42个等价类,每个等价类对应于具有相同结构的文字子集。这种划分方法为文字识别中的粗分类提供了新的划分方案,使大大减少文字精细分类器的负担成为可能。其次,通过对大量的实际朝鲜语文档的研究,分析了文字结构的概率分布。通过统计不同文字结构在实际文档中出现的概率,揭示了不同结构文字的使用效率和构成实际朝鲜语文档的主要文字结构以及在实际文档中所出现的文字的平均复杂度。最后,通过计算在结构分类过程中不同位置上的基本字母的信息增益,利用ID3算法建立了文字结构分类决策树,为文字识别的粗分类策略提供了理论依据。通过所建立的决策树揭示了文字结构分类信息增益最大的关键基本字母类型集,并以决策树为依据对印刷体文字设计了基于12种文字结构的粗分类算法,以验证这一方法的有效性,为朝鲜文字计算机识别的粗分类提出了有效的实现方案。对实际文档的统计实验表明,现代朝鲜语文档由较简单结构的文字组成,仅靠42种结构中的17种即可表现实际文档中99%以上的内容,实际文档中平均每个文字所含基本字母个数约为2.67个。对文字结构的粗分类具有最大贡献的关键字母类型是元音字母和终声辅音字母,而以此为依据可以设计与实现有效的粗分类算法。

论文目录

摘要

Abstract

第1章绪论

1.1 研究目的和意义

1.2 国内外研究现状

1.2.1 文字识别

1.2.2 文本检索技术及其应用

1.2.3 文字差异的描述方法

1.3 主要研究内容

1.4 本文结构

第2章朝鲜文字结构特征的分析

2.1 引言

2.2 基本字母及其分类

2.3 朝鲜文字的编码

2.3.1 朝鲜文编码字符集

2.3.2 Unicode字符集

2.4 文字的空间结构和产生规则

2.4.1 文字的空间结构

2.4.2 文字的产生规则

2.5 本章小结

第3章朝鲜文字结构划分与统计特性的分析

3.1 引言

3.2 文字的结构等价类

3.2.1 朝鲜文字的线性化

3.2.2 文字的结构距离

3.2.3 文字的等价类与结构分类

3.2.4 文字结构分类算法设计

3.3 文字结构的统计分布

3.3.1 文字集中文字结构的概率分布

3.3.2 实际文档中文字结构的概率分布

3.3.3 文字结构的累积概率分布

3.3.4 文字结构复杂度分析

3.4 基于信息论的文字结构分析

3.4.1 文字结构的信息熵

3.4.2 基本字母的信息增益

3.5 本章小结

第4章基于文字结构分类决策树的文字粗分类方法

4.1 引言

4.2 文字结构分类决策树

4.2.1 决策树的建立与关键字母类型的确定

4.2.2 朝鲜文字识别的粗分类策略

4.3 粗分类算法

4.3.1 算法设计

4.3.2 实验结果及分析

4.4 本章小结

结论

参考文献

攻读硕士学位期间发表的论文

致谢

朝鲜文字信息结构的研究与应用

论文摘要

论文目录

相关论文文献

猜你喜欢