论文摘要
环境声音识别的研究正日益影响着社会的各个领域,同时,在实际环境中,常常会存在很多背景噪声,那么研究如何从嘈杂的背景噪声中准确的识别出有意义的声音信息就显得尤为重要。针对此问题,本文提出了一种通过分析声音的彩色时频谱图像以完成声音识别与分类的方法。首先,采用逐步聚类算法完成对声音信号的第一层聚类;然后,通过基于强度分层和HSV色图的双门限伪彩色映射算法将每一聚类中的音频数据有效分段的时频矩阵映射为彩色时频谱图像;最后,提取相应的时频谱图像颜色矩特征,并给予不同权重值,进而对每一聚类单独使用SVM分类器,完成第二层分类。在算法实现过程中,本文主要的研究内容如下:(1)改进了端点检测算法。由于有效声音段往往具有周期性,因此在传统的端点检测方法基础上,提出了一种基于短时平均幅度与短时自相关分析的两级判别端点检测算法。(2)提出了逐步聚类算法。由于KNN分类过程需要在已知训练样本类别的前提下才能对待分类样本进行分类,同时,为了解决KNN算法中k值选择难问题,并且避免待分类样本需要和所有样本计算相似性距离,本文根据识别算法的需要,提出了一种基于KNN算法思想的逐步聚类算法。实验结果表明,该算法能够很好的完成音频信号的第一层聚类。(3)提出了基于强度分层和HSV色图的双门限伪彩色映射算法。为了将音频特征分析转化为分析其相关的图像特征,这里提出了一种结合强度分层技术和HSV色图映射技术的双门限伪彩色映射算法,将音频数据的时频矩阵映射为彩色时频谱图像。通过该算法可以有效的将噪音成分与有效声音成分映射到不同的单色区域中,以达到分离噪声的目的。通过本文提出的方法,我们将图像处理技术运用到了环境声音的识别与分类中。同时,实验结果表明,在噪声环境下,该分类方法具有良好的抗噪性能与分类效果。