色情视频的音频辅助识别

论文摘要

随着网络技术和多媒体技术的不断发展,人们日常生活中接触到的多媒体信息越来越多,数字视频便是其中重要的一种。数字视频在便利人们生活的同时,一些问题也随之而来：暴力,色情等视频借机传播,成为了社会的不和谐因素。基于以上原因,识别并检测该类视频就成为一项有实际意义的工作。但是,视频文件一般数据量巨大,在处理的过程中,对于存储和运算的要求都较高。同时,从一般的视频流中直接提取出高级的语义信息仍然比较困难。因此,我们可以通过其他的途径来选取解决这一问题的办法。在视频文件中,音频是对视觉信息的一个极好的补充。同时,音频自身含有大量的特征信息。而就色情类视频本身而言,其在特定场景下,音频也具有自身特征。因此,本文选取了音频作为突破口来对色情视频进行检测和识别。色情视频所对应的音频在物理特性上与普通音频没有差别,因此可以选择一些传统的音频处理手段来处理色情类音频。本文选取了高斯混合模型(GMM)和隐马尔可夫模型(HMM)来构建分类和识别模型。主要工作包括模型(GMM模型和HMM模型)的训练。重点在识别系统框架的构建和实现。首先,从视频文件中提取出音频信息并转化为WAV格式(16bit,22kHz,单声道)的待测音频。待测音频通过汉明窗加窗处理后被分成0.02秒的短时音频处理帧。接下来对每个短时音频处理帧中提取出26维MFCC系数、1维过零率、1维短时能量、4维子带能量和4维子带能量比等特征,形成36维的特征向量。在色情音频识别过程中,首先利用短时能量将音频处理帧分静音帧和非静音帧,再利用GMM模型将非静音帧进一步分成音乐、语音、音乐语音混合声和环境声四类。最后再利用HMM模型从剩余的语音和音乐语音混合帧中识别出可能包含色情的音频帧。整个算法在VC6.0平台下实现。测试结果表明,整个系统可以有效工作,起到了良好的辅助识别作用。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 研究背景

1.2 色情视频的定义及特征

1.3 基于内容的音频识别的研究现状

1.4 本文所用到的基本方法

1.5 论文安排

第二章音频信号的预处理及特征提取

2.1 音频信号的预处理

2.1.1 采样与量化

2.1.2 预加重处理

2.1.3 加窗与分帧

2.2 音频时域特征提取

2.2.1 过零率

2.2.2 短时能量

2.2.3 子带能量和子带能量比

2.3 音频频域特征提取

2.3.1 MFCC系数

第三章基于高斯混合模型的音频分类

3.1 高斯混合模型

3.2 K均值法介绍

3.3 EM算法介绍

3.4 高斯混合模型训练

第四章基于隐马尔可夫模型的色情视频伴音识别

4.1 隐马尔可夫模型（HMM）的基本概念

4.2 隐马尔可夫模型的三个问题和对应解决算法

4.3 CHMM和DHMM的比较

4.4 HMM的下溢问题

4.5 矢量量化概述

4.5.1 矢量量化基本原理

4.5.2 矢量量化的失真测度

4.5.3 矢量量化器的最佳码本设计

4.5.4 LBG算法介绍

4.5.5 初始码本的生成

4.6 隐马尔可夫模型的训练

第五章系统框架的实现与实验结果

5.1 系统框架及模块介绍

5.2 VC6.0软件设计与实现

5.2.1 系统设计架构

5.2.2 软件使用

5.3 实验结果与识别率计算

第六章结论和展望

参考文献

致谢

作者攻读学位期间发表的学术论文目录

色情视频的音频辅助识别

论文摘要

论文目录

相关论文文献

猜你喜欢