印刷体藏文识别系统的研究与实现

印刷体藏文识别系统的研究与实现

论文摘要

藏文文字历史悠久,文字造型优美,用藏文文字记载的经典文献、古籍著述和译作浩如烟海。藏文对保存和发展藏族文化、科学,丰富祖国文化宝库,促进社会主义建设事业的发展,都发挥了重大的作用。为了将这些藏族传统优秀文化发扬光大,我们有责任、有义务用最先进的信息处理手段,将记载和表述藏族传统文化的文字进行数字化和信息化。因此对藏文文字的自动识别技术的研究,是非常有意义的。本文在现有印刷体藏文识别技术的基础上,对藏文字符特征的提取和分类识别算法进行了研究。引入信息论理论,提出了基于信息论的特征提取与识别算法,并以此为核心设计实现了一套印刷体藏文识别系统。主要完成工作如下:首先,研究并提出了基于信息论的特征提取与识别算法。依据藏文字符的三种典型特征建立特征库,并利用信息熵对特征样本库进行评价。将欧氏距离法和互信息度量法相结合设计分类识别算法,即运用条件互信息进行高维度特征向量间的相似度量方法解决了维度灾难带来的不利影响,又保留了传统算法设计简单,计算开销小的优点。其次,在设计实现印刷体藏文识别系统的过程中,依据上述算法提出了基于条件互信息相似度量算法的多级分类策略。设计实现了一个三级分类器,通过实验测试,分类识别准确率明显优于传统分类器。同时,在实现预处理模块和后处理模块时,对其中的关键技术也进行了一定的研究分析。如:预处理中归一化点阵大小的选择等。最后,通过对相当数量的数据集进行测试,测试结果显示该系统的识别率有了明显提高,取得了令人满意的识别效果。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 选题背景
  • 1.2 印刷体藏文识别技术的研究现状
  • 1.3 本文的主要研究内容和创新点
  • 1.4 本文的组织结构
  • 第二章 印刷体藏文识别技术及相关理论概述
  • 2.1 藏文字符特征的研究
  • 2.2 印刷体藏文识别的基本原理
  • 2.3 印刷体藏文识别的三个阶段,及各阶段所涉及的关键技术
  • 2.3.1 预处理阶段
  • 2.3.2 识别阶段
  • 2.3.3 后处理阶段
  • 2.4 本章小结
  • 第三章 基于信息论的藏文分类识别算法研究
  • 3.1 信息论
  • 3.1.1 信息论概述
  • 3.1.2 信息度量在模式识别中应用情况
  • 3.1.3 信息熵与条件熵
  • 3.1.4 互信息与条件互信息
  • 3.2 藏文字符特征提取的基本概念
  • 3.3 藏文字符的特征提取与选择算法
  • 3.3.1 元音特征
  • 3.3.2 字丁密度特征
  • 3.3.3 网格特征
  • 3.3.4 建立特征库
  • 3.3.5 利用信息熵来评价特征库的优劣
  • 3.4 分类识别算法
  • 3.4.1 分类识别概述
  • 3.4.2 基于互信息的多级分类器算法
  • 3.4.3 基于条件互信息的相似度量算法的优点
  • 3.5 本章小结
  • 第四章 基于新算法的印刷体藏文识别系统设计
  • 4.1 系统结构设计
  • 4.2 系统各模块
  • 4.2.1 预处理模块
  • 4.2.2 特征提取模块
  • 4.2.3 分类识别模块
  • 4.2.4 后处理模块
  • 4.3 实验结果与分析
  • 4.3.1 测试数据集
  • 4.3.2 测试过程
  • 4.3.3 测试结果与分析
  • 4.4 本章小结
  • 第五章 总结与展望
  • 5.1 总结
  • 5.2 展望
  • 参考文献
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    印刷体藏文识别系统的研究与实现
    下载Doc文档

    猜你喜欢