基于HMM的维吾尔文联机手写识别研究

论文摘要

在新疆信息化发展的今天,对手写体维吾尔文进行机器识别的需求越来越紧迫。它不仅对维吾尔族的古代文献资料等有重要的利用价值,而且在今天经济发展的同时对信息交流也很重要。联机手写维吾尔文的识别研究还处于初级阶段,归根结底是由于维吾尔文本身的书写特点给识别带来的困难,以及其他影响识别成功的因素。维吾尔文与阿拉伯文相似,现今存在的阿拉伯文的手写识别技术比较成熟,研究的人员也比较多,识别方法也较为成功,所以可以借鉴识别阿拉伯文的方法来应用在识别维吾尔文当中。同时,对维吾尔文的研究新方法也可以作为研究阿拉伯文的借鉴。本实验是在已有技术的基础上进行改进,实现了联机手写维吾尔文的识别。本文在对维吾尔文的特点和难点分析的基础上,研究并实验了维吾尔文文字识别技术中的识别部分。通过对字符的建模及分类、字典的建立及识别网络的建立,借助HTK工具包达到了识别的目的。在样本训练阶段,将样本单词手动切分成字母,经提取特征后,构建以字母为基元的HMM模型,并将其嵌入到识别字典网络中,而识别字典为有延迟笔画字典、无延迟笔画字典和备用字典(共3个)。在识别阶段,当在线输入手写单词后,经过特征提取、消除延迟笔画等一系列步骤,在HTK基础上进行识别,最终得到识别结果。实验得到的单词的识别率达到90%左右。

论文目录

摘要

Abstract

第一章引言

1.1 文字识别技术在国内外发展与现状

1.1.1 文字识别技术在国外的发展与现状

1.1.2 文字识别技术在国内的发展与现状

1.1.3 维吾尔文识别技术的发展与现状

1.2 文字识别技术简要

1.3 维吾尔文手写体书写特点

1.4 维吾尔文联机手写体识别的难点及研究趋势

1.5 课题背景及研究意义

1.6 论文主要研究工作及结构安排

第二章隐马尔可夫模型相关原理

2.1 隐马尔可夫模型（HMM）的基本概念

2.2 HMM的三个基本问题

2.2.1 评估问题——Forward-Backward算法

2.2.2 解码问题——Viterbi算法

2.2.3 训练问题——Baum-Welch算法

2.3 HMM在字符识别中的应用

2.4 本章小结

第三章基于HMM的联机手写维吾尔文识别框架

3.1 样本库的建立

3.2 样本预处理和特征提取

3.2.1 预处理

3.2.2 特征提取

3.2.3 特征离散化

3.3 字符建模及分类

3.3.1 字符建模

3.3.2 字符模型的分类

3.4 字典的构建

3.4.1 带延迟笔画的字典

3.4.2 无延迟笔画的字典

3.5 识别过程

3.6 本章小结

第四章基于HMM的联机手写维吾尔文识别实验

4.1 实验平台

4.1.1 硬件环境

4.1.2 软件环境——HTK工具包

4.2 实验数据准备

4.3 语言模型

4.3.1 n-gram语言模型

4.3.2 Markov语言模型

4.3.3 基于决策树的语言模型

4.3.4 动态、自适应、基于缓存的语言模型

4.3.5 本实验语言模型的建立

4.4 训练与识别

4.4.1 建立HMM模型原型

4.4.2 初始化HMM模型

4.4.3 HMM模型参数估计

4.4.4 识别

4.5 实验结果与分析

4.5.1 从语言模型看实验结果

4.5.2 从识别字典看实验结果

4.5.3 实验结果分析

4.6 本章小结

第五章总结与展望

5.1 总结

5.2 展望

参考文献

在校期间发表论文情况

致谢

基于HMM的维吾尔文联机手写识别研究

论文摘要

论文目录

相关论文文献

猜你喜欢