基于小波神经网络理论的VOCR与HOCR技术研究

论文摘要

随着现代信息社会的不断发展,人们获得的多媒体信息日益增加。因此,对各种多媒体信息的处理技术就变成了相关领域内学者的重要研究任务。在图像/视频多媒体中,图像和视频中的文字是一种包含丰富信息的对象,通过OCR（Optical Character Recognition）系统自动识别图像上的文字（即Viedo OCR,简称VOCR）对于视频内容分析、检索,图片内容理解等研究领域有着重要应用。不同于其他典型模式（如单个汉字字符模式、人脸模式等）,成行的文字在大小、灰度、形状、颜色等属性上具有很强的不一致性,在很多情况下文字还处于复杂的背景中,这给文字的检测和识别带来了巨大的困难。手写体数字识别在OCR中是一个很重要的问题,即HOCR（Handwritten OCR）问题,其研究有着广泛的应用价值,如邮政编码的自动识别与邮件分拣等。将小波神经网络与多小波神经网络理论应用到VOCR和HOCR是作者的尝试。论文的主要工作包括以下几个方面:（1）较深入地探讨了小波、多小波、小波神经网络与多小波神经网络理论,特别是对小波神经网络与多小波神经网络的函数逼近性与收剑性进行了较深入地研究,给出了理论证明,并对db2小波神经网络和GHM多小波神经网络关于非线性函数的逼近功能与收敛性进行了实验验证。实验研究与分析表明,多小波神经网络的收敛速度与逼近效果明显好于单尺度小波神经网络。（2）提出了一种能够自动水平校准检测不同大小、字体、颜色和语种的图像文本信息的鲁棒方法。首先对待测图像进行小波变换,将高频小波系数的分布状况作为文本区与非文本区的统计特征,然后应用K-均值聚类算法分类出图像中的文本区,实现了精确定位。所提出的检测方法的性能通过实验得到了验证。（3）提出了利用小波神经网络提取图像中文本信息的新颖方法。原图像经过离散小波变换分解成四个子频带,文本区域的高频子频带与非文本区域的不同,所以可利用其差异计算出三个特征值作为人工神经网络的输入值,然后用BP神经网络来训练待测的文本区域。文本区域的人工神经网络输出值不同于非文本区域的输出值,因此可利用阈值来判定其是否为文本区域。最后,将可检测的文本区域经过扩张运算后便可得到正确的文本区域。（4）提出了基于Kirsch边缘增强的二维小波特征与二维复小波特征的提取技术。这两类特征与几何特征融合识别手写体数字。进行的手写体数字识别与认证实验表明这两类混合特征的集合能获得很好的识别与认证性能。此外,对所提取的小波特征提取方法的优点进行了讨论。（5）提出了采用多小波神经网络簇伸展轮廓识别手写体数字的新颖方法。该方法首先跟踪待识别数字的轮廓,然后对轮廓进行均衡化和重采样,使其具有平移不变性和缩放不变性,随后采用多小波神经网络簇对轮廓壳进行伸展得到数级多分辨率和其平均值,最后,将这些壳系数输入到前馈神经网络簇,以识别该手写体数字。该方法的主要优越性在于将轮廓壳进行多分辨率分解而又没有低采样。实验表明使用多小波特征进行手写体数字识别是切实可行的。同时对该方法的性能进行了较深入地分析,本文提出的方法比单尺度小波神经网络方法好。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 课题研究的目的和意义

1.1.1 课题研究的目的

1.1.2 课题研究的意义

1.2 国内外研究概况

1.3 论文的主要研究内容

第二章小波与多小波理论

2.1 引言

2.2 小波理论简介

2.2.1 小波的相关定义

2.2.2 小波的性能指标

2.3 小波变换的基本理论

2（R）的塔式分解'>2.3.1 L²（R）的塔式分解

2.3.2 Mallat算法及其信号分解与重构

2.3.3 二维小波变换

2.4 多小波的产生与连续多小波变换

2.5 多小波的构造

2.5.1 GHM多小波的构造

2.5.2 CL多小波的构造

2.5.3 HERMITE三次B样条多小波的构造

2.5.4 SA4多小波的构造

2.5.5 多小波的其它构造方法

2.6 多小波的多分辨率分析及其性质

2.7 多小波的MALLAT算法

第三章小波神经网络与多小波神经网络

3.1 引言

3.2 小波变换、神经网络和小波神经网络之间的关系

3.2.1 小波变换的函数逼近能力

3.2.2 神经网络的函数逼近能力

3.2.3 小波变换和前馈神经网络之间的联系

3.3 小波神经网络的学习过程

3.3.1 小波函数的选择

3.3.2 小波神经网络参数的初始化

3.3.3 小波神经网络中隐层节点的确定

3.3.4 小波神经网络的参数调节算法

3.3.5 小波神经网络分类器

3.4 多小波神经网络的构造方法

3.4.1 基于多小波中多尺度函数的多小波神经网络

3.4.2 基于多小波框架的多小波神经网络

3.4.3 基于多小波连续变换的多小波神经网络

3.5 小波神经网络与多小波神经网络的逼近性与收敛性

3.5.1 两类网络的逼近性能与收敛性的理论研究

3.5.2 两类网络的逼近性能与收敛性的实验分析

3.6 本章小结

第四章图像文本信息的非监督检测

4.1 概述

4.2 非监督文本检测

4.2.1 图像预处理

4.2.2 图像的小波变换

4.2.3 特征矢量估计

4.2.4 基于K-均值聚类算法的非监督像素块分类

4.2.5 定位与求精

4.3 实验结果与结论

4.4 本章小结

第五章基于小波神经网络的图像文本信息提取技术

5.1 引言

5.2 基于小波神经网络的文本信息提取算法

5.2.1 离散小波变换（DWT）

5.2.2 神经网络及其训练算法

5.3 实验与讨论

5.4 结束语

5.5 本章小结

第六章手写体数字识别与认证的小波特征提取

6.1 引言

6.2 基于KIRSCH边缘增强的小波特征提取

6.3 复小波变换与特征提取

6.4 小波特征的散度选择准则

6.5 手写体数字的识别与认证方案

6.6 讨论与结论

6.7 本章小结

第七章基于多小波神经网络簇的手写体数字识别

7.1 概述

7.2 离散多小波分析与正交壳伸展

7.2.1 离散多小波分析

7.2.2 正交壳伸展

7.3 基于正交多小波神经网络簇的数字识别算法

7.4 实验结果与分析

7.5 结论

第八章总结与展望

8.1 总结

8.2 展望

参考文献

作者在攻读博士学位期间公开发表的论文

作者在攻读博士学位期间所承担的主要项目

作者在攻读博士学位期间所获得的主要成果奖

致谢

基于小波神经网络理论的VOCR与HOCR技术研究

论文摘要

论文目录

相关论文文献

猜你喜欢