视频文字提取技术研究与应用

视频文字提取技术研究与应用

论文摘要

视频文字直接承载了高层语义信息,因此,如果能够有效地提取视频中的文字信息,对高速增长的视频内容的高效检索、理解和复用将具有重要的作用。传统的OCR技术不能完全解决视频中的文字信息提取问题,特别是复杂背景中的文字。因此,需要从理论和技术上提供有效的解决方案。视频文字信息抽取的技术难点主要来源于5个方面:(1)复杂背景中的文字定位以及退化文字的定位问题;(2)种类繁多的字符图像二值化问题;(3)复杂背景中的字符切分问题;(4)粘连字符的切分问题;(5)退化字符的识别问题。本文围绕着视频文字信息抽取这一领域,针对其中的若干问题展开了研究工作。本文的主要工作包括:1.为解决各种类型的字符图像二值化问题,提出了一种多二值图像融合的字符图像二值化算法。算法首先从不同的角度提取图像的信息,得到不同的二值图像,然后把这些二值图像融合,得到最终的二值图像。对比其他字符图像二值化算法,该多二值图像融合的算法能大大地提高字符识别系统的性能。2.为解决字符的切分问题,分析了字符图像的特点及字符切分的难点,提出了一种基于启发和识别的字符切分算法。算法能同时对粘连字符及复杂背景中的字符进行较准确的切分,同时能去除切分单元中的“噪声”成分,克服了启发式字符切分算法的某些缺陷。3.为解决退化字符的识别问题,提出了一种基于融合图像的字符识别算法。对比字符的二值图像和灰度图像,融合图像既能保留有用的字符笔画灰度信息,同时能去除无用的背景信息,提高了字符识别系统的性能。该字符识别算法同时能较准确地给出识别结果的置信度,结合基于词的二元及三元统计语言模型,利用连续多个字符切分单元的上下文信息,进一步提高了字符识别率。4 .提出了一种图像中的文字定位以及视频中的文字提取算法。图像中的文字定位算法首先基于字符笔画的双边缘模型得到候选文字区域,然后对候选文字区域进行分解得到精确定位的文本块,最后基于启发和字符识别对文本块进行验证。视频中的文字提取算法每隔若干视频帧取一帧进行基于图像的文字定位得到文字对象,然后在视频帧序列中对文字对象进行向前和向后的跟踪,最后对文字对象进行识别得到文字提取结果。本文针对视频文字提取的技术难点,特别是退化字符及复杂背景中字符的切分与识别问题,提出了一些解决方案,取得了一些研究进展。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题研究的背景及意义
  • 1.2 研究现状
  • 1.2.1 文字定位
  • 1.2.2 文字增强
  • 1.2.3 文本分割
  • 1.2.4 字符切分
  • 1.2.5 字符识别
  • 1.2.6 基于语言模型的后处理
  • 1.3 视频文字提取的技术难点及本文的主要工作
  • 1.4 论文的组织
  • 第二章 基于视频文字提取的数据媒体内容管理平台的总体设计
  • 2.1 数字媒体内容管理平台在视频文字提取方面的功能需求
  • 2.1.1 数字媒体内容管理平台工作流程
  • 2.1.2 视频文字提取的功能需求
  • 2.2 系统总体构架设计
  • 2.2.1 数字媒体内容管理平台系统构架设计
  • 2.2.2 视频文字提取系统构架设计
  • 2.3 文字信息提取在数字媒体内容管理平台中的集成
  • 2.4 小结
  • 第三章 视频文字提取的关键技术设计与实现
  • 3.1 多二值图像融合的字符图像二值化
  • 3.1.1 算法框架
  • 3.1.2 局部自适应的背景区域提取
  • 3.1.3 基于局部阈值的笔画提取
  • 3.1.4 基于字符笔画模型的笔画提取
  • 3.1.5 二值图像融合
  • 3.2 基于启发和识别的字符切分
  • 3.2.1 字符图像二值化
  • 3.2.2 文本行高度估计
  • 3.2.3 基于启发和字符识别寻找字符切分线
  • 3.2.4 去除切分单元中的“噪声”成分
  • 3.3 基于融合图像的单字符识别
  • 3.3.1 二值图像与灰度图像的融合
  • 3.3.2 图像归一化
  • 3.3.3 梯度直方图特征提取
  • 3.3.4 特征降维
  • 3.3.5 建立字符识别库
  • 3.3.6 字符识别
  • 3.4 图像中的文字定位
  • 3.4.1 算法的主要流程
  • 3.4.2 文字区域的粗检测
  • 3.4.3 文本行矩形外框的精确定位
  • 3.4.4 基于启发的文本行验证
  • 3.4.5 基于识别的文本行验证及极性判断
  • 3.5 视频中文字信息抽取
  • 3.5.1 视频中文字对象的跟踪
  • 3.5.2 文字图像增强与字符识别
  • 3.6 系统集成界面
  • 3.7 小结
  • 第四章 视频文字信息提取的算法与功能测评
  • 4.1 图像二值化算法的实验与测评
  • 4.1.1 几种算法的性能比较
  • 4.1.2 参数选择
  • 4.2 字符切分算法的实验与测评
  • 4.3 字符识别算法的实验与测评
  • 4.3.1 利用不同图像进行字符识别的性能比较
  • 4.3.2 训练参数对字符识别率的影响
  • 4.4 视频文字提取性能的测评
  • 4.4.1 广播视频文字提取实验
  • 4.4.2 影视视频文字提取实验
  • 4.5 小结
  • 第五章 结论与展望
  • 致谢
  • 参考文献
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    视频文字提取技术研究与应用
    下载Doc文档

    猜你喜欢