论文摘要
环境问题直接影响着人类的日常生活,环境声音又包含着大量的人类生活环境信息。在真实的场景中,通常都存在着各种各样的噪声。针对真实场景中非平稳背景噪声下的环境声音识别问题,提出了一种基于新型抗噪特征提取的两层鲁棒环境声音识别技术。首先,进行背景噪声的实地采集并从Freesound声音库获取纯净的环境声音。然后,以真实背景噪声下的鸟类声音识别作为研究的切入点,提出了新型的抗噪幂归一化倒谱系数(APNCC)结合两层环境声音识别架构的方法。最后,将该方法推广到更一般化的真实背景噪声下的环境声音识别。为提高环境声音识别的准确率,本文主要提出并实现以下方法:1) 两层环境声音识别架构。第一层架构:纯净声音信号经过前期处理后,首先,提取声音段的音量动态范围(VDR)、非静音比(NSR)、非基音比(NPR)和平滑基音比(SPR)特征。然后,对这4个特征进行融合,产生融合的声音段特征。接着,使用融合的声音段特征对训练集中所有声音样本进行K均值(K-means)聚类。。第二层架构:首先,提取声音帧的APNCC、幂归一化倒谱系数(PNCC)和Mel频率倒谱系数(MFCC)特征。然后,用这3种声音帧特征对每个聚类分别进行支持向量机(SVM)建模。两层环境声音识别的测试阶段则同样由测试集中不同信噪比的所有声音样本进行声音段和声音帧特征提取后,结合K-means聚类和SVM分类器进行识别。2)经两阶段去噪的APNCC。首先,针对真实场景中的背景噪声复杂多变的情况,根据一种适用于高度非平稳环境下的噪声估计算法求出噪声功率谱。其次,为了减少残留的有色噪声,使用多频带谱减法对声音功率谱进行降噪处理。最后,结合PNCC的提取过程,对降噪的声音功率谱进行新型APNCC的提取。其中,APNCC的提取过程中包含了两阶段的去噪步骤:结合非平稳噪声估计的多频带谱减去噪和中间能量偏差移除去噪。本文对鸟类声音、天气声音、哺乳动物声音和昆虫声音这4类环境声音中的70个子类环境声音的融合声音段特征进行K-means聚类后,采用SVM分类器分别对APNCC、PNCC和MFCC进行不同场景和信噪比情况下的对比实验。实验表明,APNCC结合两层声音识别架构具有较好的平均识别效果及较强的噪声鲁棒性,更适用于信噪比低于30dB的真实噪声场景下的环境声音识别。
论文目录
相关论文文献
标签:两层鲁棒环境声音识别论文; 抗噪幂归化倒谱系数论文; 非平稳噪声估计论文; 多频带谱减法论文; 频率倒谱系数论文;