论文摘要
随着现代信息社会的不断发展,人们获得的多媒体信息日益增加。因此,对各种多媒体信息的处理技术就变成了相关领域内学者的重要研究任务。在图像/视频多媒体中,图像和视频中的文字是一种包含丰富信息的对象,通过OCR(Optical Character Recognition)系统自动识别图像上的文字(即Viedo OCR,简称VOCR)对于视频内容分析、检索,图片内容理解等研究领域有着重要应用。不同于其他典型模式(如单个汉字字符模式、人脸模式等),成行的文字在大小、灰度、形状、颜色等属性上具有很强的不一致性,在很多情况下文字还处于复杂的背景中,这给文字的检测和识别带来了巨大的困难。手写体数字识别在OCR中是一个很重要的问题,即HOCR(Handwritten OCR)问题,其研究有着广泛的应用价值,如邮政编码的自动识别与邮件分拣等。将小波神经网络与多小波神经网络理论应用到VOCR和HOCR是作者的尝试。论文的主要工作包括以下几个方面:(1)较深入地探讨了小波、多小波、小波神经网络与多小波神经网络理论,特别是对小波神经网络与多小波神经网络的函数逼近性与收剑性进行了较深入地研究,给出了理论证明,并对db2小波神经网络和GHM多小波神经网络关于非线性函数的逼近功能与收敛性进行了实验验证。实验研究与分析表明,多小波神经网络的收敛速度与逼近效果明显好于单尺度小波神经网络。(2)提出了一种能够自动水平校准检测不同大小、字体、颜色和语种的图像文本信息的鲁棒方法。首先对待测图像进行小波变换,将高频小波系数的分布状况作为文本区与非文本区的统计特征,然后应用K-均值聚类算法分类出图像中的文本区,实现了精确定位。所提出的检测方法的性能通过实验得到了验证。(3)提出了利用小波神经网络提取图像中文本信息的新颖方法。原图像经过离散小波变换分解成四个子频带,文本区域的高频子频带与非文本区域的不同,所以可利用其差异计算出三个特征值作为人工神经网络的输入值,然后用BP神经网络来训练待测的文本区域。文本区域的人工神经网络输出值不同于非文本区域的输出值,因此可利用阈值来判定其是否为文本区域。最后,将可检测的文本区域经过扩张运算后便可得到正确的文本区域。(4)提出了基于Kirsch边缘增强的二维小波特征与二维复小波特征的提取技术。这两类特征与几何特征融合识别手写体数字。进行的手写体数字识别与认证实验表明这两类混合特征的集合能获得很好的识别与认证性能。此外,对所提取的小波特征提取方法的优点进行了讨论。(5)提出了采用多小波神经网络簇伸展轮廓识别手写体数字的新颖方法。该方法首先跟踪待识别数字的轮廓,然后对轮廓进行均衡化和重采样,使其具有平移不变性和缩放不变性,随后采用多小波神经网络簇对轮廓壳进行伸展得到数级多分辨率和其平均值,最后,将这些壳系数输入到前馈神经网络簇,以识别该手写体数字。该方法的主要优越性在于将轮廓壳进行多分辨率分解而又没有低采样。实验表明使用多小波特征进行手写体数字识别是切实可行的。同时对该方法的性能进行了较深入地分析,本文提出的方法比单尺度小波神经网络方法好。
论文目录
相关论文文献
标签:文本信息检测论文; 文本信息提取论文; 视频内容分析论文; 小波特征论文; 非监督分类器论文; 小波神经网络论文; 多小波神经网络论文;