真实噪声下利用抗噪幂归一化倒谱系数的两层鲁棒环境声音识别

论文摘要

环境问题直接影响着人类的日常生活,环境声音又包含着大量的人类生活环境信息。在真实的场景中,通常都存在着各种各样的噪声。针对真实场景中非平稳背景噪声下的环境声音识别问题,提出了一种基于新型抗噪特征提取的两层鲁棒环境声音识别技术。首先,进行背景噪声的实地采集并从Freesound声音库获取纯净的环境声音。然后,以真实背景噪声下的鸟类声音识别作为研究的切入点,提出了新型的抗噪幂归一化倒谱系数（APNCC）结合两层环境声音识别架构的方法。最后,将该方法推广到更一般化的真实背景噪声下的环境声音识别。为提高环境声音识别的准确率,本文主要提出并实现以下方法：1) 两层环境声音识别架构。第一层架构：纯净声音信号经过前期处理后,首先,提取声音段的音量动态范围（VDR）、非静音比（NSR）、非基音比（NPR）和平滑基音比（SPR）特征。然后,对这4个特征进行融合,产生融合的声音段特征。接着,使用融合的声音段特征对训练集中所有声音样本进行K均值（K-means）聚类。。第二层架构：首先,提取声音帧的APNCC、幂归一化倒谱系数（PNCC）和Mel频率倒谱系数（MFCC）特征。然后,用这3种声音帧特征对每个聚类分别进行支持向量机（SVM）建模。两层环境声音识别的测试阶段则同样由测试集中不同信噪比的所有声音样本进行声音段和声音帧特征提取后,结合K-means聚类和SVM分类器进行识别。2)经两阶段去噪的APNCC。首先,针对真实场景中的背景噪声复杂多变的情况,根据一种适用于高度非平稳环境下的噪声估计算法求出噪声功率谱。其次,为了减少残留的有色噪声,使用多频带谱减法对声音功率谱进行降噪处理。最后,结合PNCC的提取过程,对降噪的声音功率谱进行新型APNCC的提取。其中,APNCC的提取过程中包含了两阶段的去噪步骤：结合非平稳噪声估计的多频带谱减去噪和中间能量偏差移除去噪。本文对鸟类声音、天气声音、哺乳动物声音和昆虫声音这4类环境声音中的70个子类环境声音的融合声音段特征进行K-means聚类后,采用SVM分类器分别对APNCC、PNCC和MFCC进行不同场景和信噪比情况下的对比实验。实验表明,APNCC结合两层声音识别架构具有较好的平均识别效果及较强的噪声鲁棒性,更适用于信噪比低于30dB的真实噪声场景下的环境声音识别。

论文目录

摘要

Abstract

第一章引言

1.1 环境声音识别的研究背景与意义

1.2 国内外研究现状

1.2.1 鸟类声音识别研究现状

1.2.2 环境声音识别研究现状

1.3 本文主要工作

1.3.1 研究内容与难点

1.3.2 论文结构

第二章两层声音识别架构

2.1 声音的前期处理

2.1.1 原始声音样本集

2.1.2 训练和测试样本集

2.2 第一层分类的训练阶段

2.2.1 基于声音段的特征提取

2.2.2 声音段的聚类训练

2.3 第二层分类的训练阶段

2.3.1 基于声音帧的特征提取

2.3.2 聚类中声音帧的SVM训练

2.4 两层分类的测试阶段

2.5 两层声音识别架构的优势

2.6 本章小结

第三章噪声功率谱估计

3.1 常用的噪声功率谱估计方法

3.2 高度非平稳噪声功率谱估计

3.2.1 带噪声音的平滑功率谱计算

3.2.2 平滑功率谱的最小值追踪计算

3.2.3 计算待识别前景声音存在的概率

3.2.4 计算时-频相关平滑常量

3.2.5 噪声功率谱估计的更新

3.3 噪声估计的时-频域效果

3.4 本章小结

第四章多频带谱减法去噪

4.1 常用的谱减去噪法

4.2 多频带谱减法

4.2.1 平滑带噪声音幅度谱

4.2.2 多频带谱减降噪

4.2.3 掩盖残余音乐噪声

4.3 多频带谱减法的时域和时-频域效果

4.4 本章小结

第五章 APNCC特征提取

5.1 Gammatone滤波

5.2 中间能量偏差移除

5.3 非线性幂函数计算

5.4 离散余弦变换

5.5 本章小结

第六章实验与结果分析

6.1 实验设计

6.2 参数设置

6.3 鸟类声音识别的实验结果与分析

6.4 环境声音识别的实验结果与分析

6.5 本章小结

结论

参考文献

致谢

个人简历、在学期间的研究成果及发表的学术论文

真实噪声下利用抗噪幂归一化倒谱系数的两层鲁棒环境声音识别

论文摘要

论文目录

相关论文文献

猜你喜欢