视频文本检测算法研究

视频文本检测算法研究

论文摘要

让计算机自动理解视频文件的内容,并利用得到的信息去推动视频管理、检索、数据挖掘等应用,是目前的一个研究热点。视频中的文本信息与视频内容紧密相关,为视频内容理解提供了重要线索。面对大量视频,如何快速、准确的从中提取文本信息,是一项有意义的研究课题。本文旨在设计一个通用、有效的视频文本信息提取系统,针对系统设计时遇到的问题开展研究工作。按照处理顺序,系统包括预处理、文本定位、抽取和识别等环节,本文主要研究前三个环节。1.预处理是指文本定位前的准备工作,包括从视频中解帧、对视频图像的质量进行评价和系统的初始化。在实际应用中,由于处理的视频图像质量差别很大,对于不同质量的图像,处理方法也不尽相同。为扩大系统的适用范围,需要考虑图像质量对处理流程的影响。本文提出了一种无参考图像质量评价算法,首先根据自然场景统计规律从图像中提取幅度衰减和位置相似性两方面特征,构成特征向量,然后训练广义回归神经网络对图像质量进行评价。2.文本定位是指从视频图像中准确的标识出文本块的位置。本文提出了一个快速有效的处理流程,首先对图像求边缘,针对边缘图像中经常出现的断裂和粘连现象进行修补,然后标定并筛选连通域,根据位置信息对连通域进行排序,根据几何约束对连通域进行局部搜索以构建文本块,完成粗检测,最后进行文本块融合以去除重复检测区域,进行文本块验证以去除虚警区域。3.文本抽取是指从文本块图像中抽取字符笔划。对于文本块图像,由于字符颜色不确定和存在背景干扰,不能将其直接送给字符识别引擎进行识别,而应加入文本抽取环节。本文提出了一套稳定的抽取方案,首先对文本块图像进行二值化和极性判断,以确定文本所在的二值图像,然后利用视频的时间冗余特点对文本块进行多帧验证和增强,最后对增强后的文本块进行二值化和连通域筛选,生成干净的二值图像,方便后续处理。文中给出了相应的数据集和实验结果,验证了算法具有较好的性能。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 选题背景及意义
  • 1.2 研究现状
  • 1.2.1 文本定位
  • 1.2.1.1 基于边缘的定位方法
  • 1.2.1.2 基于纹理的定位方法
  • 1.2.1.3 基于颜色的定位方法
  • 1.2.1.4 基于连通域的定位方法
  • 1.2.1.5 其它定位方法
  • 1.2.2 文本抽取
  • 1.2.3 图像质量评价
  • 1.2.3.1 全参考算法
  • 1.2.3.2 半参考算法
  • 1.2.3.3 无参考算法
  • 1.3 研究内容及结构安排
  • 第二章 文本定位算法的研究
  • 2.1 引言
  • 2.2 边缘修补
  • 2.2.1 求边缘
  • 2.2.2 边缘细化
  • 2.2.3 边缘修补
  • 2.3 连通域标定及筛选
  • 2.3.1 连通域标定
  • 2.3.2 提取特征
  • 2.3.3 设计决策树
  • 2.4 文本块粗检测
  • 2.5 文本块融合
  • 2.5.1 相同方向的融合
  • 2.5.2 交叉方向的融合
  • 2.6 文本块验证
  • 2.6.1 共生矩阵特征
  • 2.6.2 形状匹配特征
  • 2.6.3 梯度变化特征
  • 2.6.4 其他特征
  • 2.6.5 设计分类器
  • 2.7 实验结果
  • 2.7.1 边缘修补
  • 2.7.2 文本块粗检测
  • 2.7.3 文本块融合
  • 2.7.4 文本块验证
  • 2.7.5 文本定位
  • 2.8 小结
  • 第三章 文本抽取算法的研究
  • 3.1 引言
  • 3.2 二值化
  • 3.3 极性判断
  • 3.3.1 背景的连续性
  • 3.3.2 计算笔划宽度
  • 3.3.3 类字连通域
  • 3.3.4 空心字
  • 3.3.5 极性判断的步骤
  • 3.4 多帧融合
  • 3.4.1 同一性验证
  • 3.4.2 多帧验证
  • 3.4.3 多帧增强
  • 3.5 连通域筛选
  • 3.6 实验结果
  • 3.6.1 极性判断
  • 3.6.2 多帧融合结果
  • 3.6.3 连通域筛选
  • 3.6.4 文本抽取
  • 3.7 小结
  • 第四章 图像质量评价的研究
  • 4.1 引言
  • 4.2 背景知识
  • 4.2.1 样本集
  • 4.2.2 衡量算法性能的定量指标
  • 4.2.3 JPEG 2000压缩标准
  • 4.2.4 自然场景统计特征
  • 4.2.5 广义回归神经网络
  • 4.3 评价算法
  • 4.3.1 幅度衰减曲线
  • 4.3.2 位置相似性
  • 4.3.3 建模与回归
  • 4.4 实验结果
  • 4.5 结论
  • 第五章 结论与展望
  • 参考文献
  • 个人简历与论文发表
  • 致谢
  • 相关论文文献

    • [1].清華簡文本復原——以《清華大學藏戰國竹簡》第一、二輯為例[J]. 出土文献 2012(00)
    • [2].召唤、整合与摧毁:群体传播时代网络叙述的副文本[J]. 现代传播(中国传媒大学学报) 2019(11)
    • [3].古义、真义与大义:以诠释范式为中心看中国古代思想文本的意义生成[J]. 复旦学报(社会科学版) 2020(01)
    • [4].广义文本情感分析综述[J]. 计算机应用 2019(S2)
    • [5].非连续性文本教学要聚合与实用[J]. 语文建设 2020(03)
    • [6].论文本的物质性[J]. 山东社会科学 2020(01)
    • [7].基于深度学习的学术文本段落结构功能识别研究[J]. 情报科学 2020(03)
    • [8].Word2vec-CNN-Bilstm短文本情感分类[J]. 福建电脑 2020(01)
    • [9].文本的时空呈现——高校写作教学改革思考之二[J]. 写作 2020(01)
    • [10].语体视角下语篇副文本系统的配置及耦合互文路径差异[J]. 当代修辞学 2020(03)
    • [11].重审“作者已死”:论作为“伴随文本”的作者与作品[J]. 西南大学学报(社会科学版) 2020(03)
    • [12].影视作品及数字媒体文本-类文本共生叙事研究[J]. 西南民族大学学报(人文社科版) 2020(06)
    • [13].金融学文本大数据挖掘方法与研究进展[J]. 经济学动态 2020(04)
    • [14].基于深度学习的自然场景文本检测与识别综述[J]. 软件学报 2020(05)
    • [15].多文本融合下的深度翻译研究[J]. 中国科技翻译 2020(02)
    • [16].伊瑟尔“召唤结构”理论下文学文本审美潜能再创造[J]. 湖北第二师范学院学报 2020(04)
    • [17].全文本视角下文艺类图书出版的意义生成[J]. 出版科学 2020(03)
    • [18].《阿Q正传》译入译出文本的风格计量学对比[J]. 外语研究 2020(03)
    • [19].广义叙述学视域下电子游戏的三种文本初探——以《王者荣耀》为例[J]. 科技传播 2020(12)
    • [20].面向文本的结构——内容联合表示学习模型[J]. 计算机应用研究 2020(S1)
    • [21].明清教材“孝”文本的传播逻辑[J]. 出版广角 2020(15)
    • [22].新型主流媒体的文本互动研究[J]. 传播与版权 2020(07)
    • [23].试论伴随文本对特稿收受与解释的影响——基于《人物》对新冠肺炎疫情的相关报道[J]. 新闻研究导刊 2020(18)
    • [24].让语文课堂充满语文的味道[J]. 文学教育(上) 2019(02)
    • [25].教师培养政策的政策文本研究[J]. 现代经济信息 2019(18)
    • [26].浅析手机取证中的文本分类[J]. 科技与创新 2019(22)
    • [27].住建部、工商总局联合修订《建设工程施工合同(示范文本)》[J]. 建筑技术开发 2017(22)
    • [28].2013版建设工程施工合同(示范文本)已废止,10月1日已执行2017版[J]. 建筑设计管理 2017(12)
    • [29].高校官方微信公众号的文本传播解读[J]. 西部广播电视 2018(16)
    • [30].自然场景图像中的文本检测方法研究[J]. 重庆科技学院学报(自然科学版) 2016(06)

    标签:;  ;  ;  

    视频文本检测算法研究
    下载Doc文档

    猜你喜欢