数字视频中的文本分割的研究

数字视频中的文本分割的研究

论文题目: 数字视频中的文本分割的研究

论文类型: 博士论文

论文专业: 计算机应用

作者: 许剑峰

导师: 黎绍发

关键词: 视频文本分割,镜头分割,文本跟踪,文本增强,车牌识别

文献来源: 华南理工大学

发表年度: 2005

论文摘要: 如今多媒体信息的应用越来越广泛。以前图书馆里收藏的资料绝大多数都是纯粹的文本书籍,现在则有了多媒体图书馆,里面收藏的资料包括图像﹑视频和音频。建立多媒体图书馆的一个重要步骤是为海量的多媒体资料建立索引,以便用户进行高效率的检索。随着在多媒体数据制造、存储与传播方面取得的重大技术进步,数字视频在各个领域的应用也越来越广泛,已经成为大多数人日常生活中经常遇到的一部分,能够从大量的视频资料中找到想要的信息成为人们迫切的要求。数字图像和视频也是数字图书馆计划中的核心内容。为了构建数字图书馆,要求将各种信息数字化,以便存储,检索和操作。如何管理和检索海量的视频数据已经成为近10 年来全球学术界和工业界一个富有挑战性的热门话题之一。近年来对视频检索系统的构建已经有了一些研究。有的系统是基于低层特性的,如视频中对象的形状﹑区域的亮度﹑颜色﹑纹理﹑人物动作描述﹑声音特征,有的系统是基于高层特征的,如人脸检测﹑说话人识别﹑文本识别。其中从视频中提取文本信息是比较受关注的一项,也是建立索引的一个重要的来源。文本是视频中重要的内容信息。视频中文本的检测和识别在视频分析过程中起到很大的作用。文本可以作为视频片断的内容标识和索引,例如在新闻视频中出现的新闻摘要,可以作为该段新闻内容的描述,用于新闻视频资料的检索;文字可以作为视频分段的依据,例如播音员名字或演员表出现的地方,可以作为新闻视频的开始或影片的结束;文字可以作为视频内容重要程度的判断依据,例如出现醒目文字的帧,可以抽取出来作为对应的视频片断的代表帧,或者在生成视频摘要的过程中,出现醒目文字的部分,可以截取下来作为视频摘要的一部分。所以对文字的分析和处理是视频分析的重要内容。而检测视频中文字的出现及其准确位置,并将文字从复杂多变的背景中分割出来,是视频文字分析处理的基础。在视频中提取和识别文字,可以有许多应用:从视频中提取出来的文本可以作为它们的索引和注释。例如对于一个关于篮球比赛的视频,可以提取视频中球员衣服上的球衣号码、球员姓名、球队名字作为注释和索引。这和建立视频中基于其他内容的索引相比,如对象的形状,计算代价要小得多。又如商业中,多媒体文档的手工登记工作要消耗大量的人力。如果能够自动读取商业多媒体档案中的特定文本信息,那就可以节约不少人力资源。同扫描出来的文件图像中的文字的检测与识别相比,视频中的文字的检测与识别需要不同的方法。因为前者一般具有单一的文字颜色和背景颜色,只需要一个简单的阈值就可以将文字与背景分开。而视频图像中往往有多种噪声成分,文字的背景大多处于运动状态,字与背景的颜色也经常不单一,分辨率也比较低,

论文目录:

摘要

ABSTRACT

第一章 绪论

1.1 视频中文本分割的研究意义和目的

1.2 视频中文本的特点

1.3 视频中文本分割的难点

1.4 视频中文本分割的系统框架和研究内容

1.5 国内外研究现状

1.5.1 国内研究的情况

1.5.2 国外研究状况

1.5.3 对于各研究的分析和总结

1.6 本文的主要内容﹑研究方法和章节安排

第二章 一种数据融合的视频镜头分割解决方案

2.1 引言

2.2 现有的镜头分割算法

2.2.1 基于压缩视频的镜头分割算法

2.2.2 基于边缘的算法

2.2.3 基于像素比较的算法

2.2.4 基于块比较的算法

2.2.5 基于直方图差值的算法

2.3 本章提出的基于数据融合的视频镜头分割算法

2.3.1 数据融合

2.3.2 差分直方图方差

2.3.3 基于BP(Back-Progagation)神经网络的视频镜头边界检测器

2.4 实验分析

2.5 本章小结

第三章 基于颜色边缘与变换支持向量机的文本定位算法

3.1 引言

3.2 几种文本检测定位算法的介绍

3.2.1 基于分裂-合并的算法

3.2.2 基于纹理的算法

3.2.3 基于边缘的算法

3.3 变换支持向量机(TSVM)原理

3.3.1 支持向量机(SVM)原理

3.3.2 变换支持向量机

3.4 本章提出的文本定位算法

3.4.1 文本特征提取

3.4.2 TSVM 核函数的选择

3.4.3 变换支持向量机分类器的训练

3.4.4 基于颜色边缘和变换支持向量机的文本区域定位算法

3.4.5 金字塔模型

3.5 实验分析

3.6 本章小结

第四章 视频中静止和线性运动文本的跟踪算法

4.1 引言

4.2 现有的文本跟踪算法

4.2.1 对静态文本的跟踪算法

4.2.2 对运动文本的跟踪算法

4.3 本章提出的视频文本跟踪算法

4.3.1 跟踪方案

4.3.2 文本跟踪

4.4 实验分析

4.5 本章小结

第五章 基于多帧分块的视频文本增强算法

5.1 引言

5.2 多帧最小化算法

5.3 多帧平均算法

5.4 本章提出的基于多帧分块的文本增强

5.5 插值放大和识别

5.6 实验和分析

5.7 本章小结

第六章 基于边缘和颜色分析的车牌号码分割

6.1 引言

6.2 车牌识别系统简介

6.3 汽车牌照的特点

6.4 车牌分割和识别系统的难点

6.5 通过边缘检测提取候选车牌区域

6.6 颜色分析

6.6.1 像素颜色归类器

6.6.2 归类器的训练

6.6.3 启发式规则

6.7 二值化﹑归一化和识别

6.7.1 二值化

6.7.2 车牌的归一化

6.7.3 车牌的识别

6.8 实验分析

6.9 本章小结

结论与展望

参考文献

攻博期间发表的论文

致 谢

发布时间: 2005-08-25

参考文献

  • [1].视频文本的提取[D]. 章东平.浙江大学2006
  • [2].现代信息检索中的文本分类及图像恢复研究[D]. 刘涛.北京邮电大学2006
  • [3].低质量文本图像OCR技术的研究[D]. 孙羽菲.中国科学院研究生院(计算技术研究所)2005
  • [4].复杂场景文本识别技术研究[D]. 杨春.北京科技大学2018
  • [5].近重复文本图像匹配研究[D]. 刘丽.华东师范大学2014
  • [6].文本图像鲁棒认证技术研究[D]. 谭利娜.湖南大学2012
  • [7].自然场景中文本识别技术研究及实现[D]. 吴锐.哈尔滨工业大学2010
  • [8].自然场景图像文本信息提取的理论与方法[D]. 张昕.清华大学2014
  • [9].几种图形图像压缩方法[D]. 孙日明.大连理工大学2013
  • [10].文本载体信息隐藏及相关技术研究[D]. 蒋斌.解放军信息工程大学2008

相关论文

  • [1].运动车辆识别技术研究[D]. 曹刚.四川大学2004
  • [2].基于支撑矢量机的图像分类、车牌识别及嵌入式应用研究[D]. 任俊.浙江大学2005
  • [3].基于内容的视频数据库多模式检索方法研究[D]. 吕凝.吉林大学2005
  • [4].基于内容的视频运动对象分割技术研究[D]. 包红强.上海大学2005
  • [5].智能交通中图像处理技术应用的研究[D]. 李文举.大连海事大学2005
  • [6].车牌识别技术的研究和实现[D]. 黄山.四川大学2005
  • [7].基于视频文本检测和视频对象分割方法研究[D]. 李朝晖.华南理工大学2004
  • [8].视频文本检测算法研究[D]. 周景超.中国科学院研究生院(自动化研究所)2008

标签:;  ;  ;  ;  ;  

数字视频中的文本分割的研究
下载Doc文档

猜你喜欢