论文摘要
藏文文字历史悠久,文字造型优美,用藏文文字记载的经典文献、古籍著述和译作浩如烟海。藏文对保存和发展藏族文化、科学,丰富祖国文化宝库,促进社会主义建设事业的发展,都发挥了重大的作用。为了将这些藏族传统优秀文化发扬光大,我们有责任、有义务用最先进的信息处理手段,将记载和表述藏族传统文化的文字进行数字化和信息化。因此对藏文文字的自动识别技术的研究,是非常有意义的。本文在现有印刷体藏文识别技术的基础上,对藏文字符特征的提取和分类识别算法进行了研究。引入信息论理论,提出了基于信息论的特征提取与识别算法,并以此为核心设计实现了一套印刷体藏文识别系统。主要完成工作如下:首先,研究并提出了基于信息论的特征提取与识别算法。依据藏文字符的三种典型特征建立特征库,并利用信息熵对特征样本库进行评价。将欧氏距离法和互信息度量法相结合设计分类识别算法,即运用条件互信息进行高维度特征向量间的相似度量方法解决了维度灾难带来的不利影响,又保留了传统算法设计简单,计算开销小的优点。其次,在设计实现印刷体藏文识别系统的过程中,依据上述算法提出了基于条件互信息相似度量算法的多级分类策略。设计实现了一个三级分类器,通过实验测试,分类识别准确率明显优于传统分类器。同时,在实现预处理模块和后处理模块时,对其中的关键技术也进行了一定的研究分析。如:预处理中归一化点阵大小的选择等。最后,通过对相当数量的数据集进行测试,测试结果显示该系统的识别率有了明显提高,取得了令人满意的识别效果。
论文目录
摘要Abstract第一章 绪论1.1 选题背景1.2 印刷体藏文识别技术的研究现状1.3 本文的主要研究内容和创新点1.4 本文的组织结构第二章 印刷体藏文识别技术及相关理论概述2.1 藏文字符特征的研究2.2 印刷体藏文识别的基本原理2.3 印刷体藏文识别的三个阶段,及各阶段所涉及的关键技术2.3.1 预处理阶段2.3.2 识别阶段2.3.3 后处理阶段2.4 本章小结第三章 基于信息论的藏文分类识别算法研究3.1 信息论3.1.1 信息论概述3.1.2 信息度量在模式识别中应用情况3.1.3 信息熵与条件熵3.1.4 互信息与条件互信息3.2 藏文字符特征提取的基本概念3.3 藏文字符的特征提取与选择算法3.3.1 元音特征3.3.2 字丁密度特征3.3.3 网格特征3.3.4 建立特征库3.3.5 利用信息熵来评价特征库的优劣3.4 分类识别算法3.4.1 分类识别概述3.4.2 基于互信息的多级分类器算法3.4.3 基于条件互信息的相似度量算法的优点3.5 本章小结第四章 基于新算法的印刷体藏文识别系统设计4.1 系统结构设计4.2 系统各模块4.2.1 预处理模块4.2.2 特征提取模块4.2.3 分类识别模块4.2.4 后处理模块4.3 实验结果与分析4.3.1 测试数据集4.3.2 测试过程4.3.3 测试结果与分析4.4 本章小结第五章 总结与展望5.1 总结5.2 展望参考文献
相关论文文献
标签:印刷体藏文识别论文; 信息论论文; 互信息度量论文; 特征提取论文; 多级分类论文;