论文摘要
在实际生活中,语音信号常常受到各种各样的干扰,例如多说话人干扰、环境噪声干扰等,其中多说话人干扰的消除较为困难。盲源分离是一种典型的多信号分离方法。目前,语音盲源分离算法主要分为时域算法和频域算法。其中时域算法需要较大的运算量且难于收敛。比较而言,频域算法能够将时域卷积运算转化为频域乘积运算,进而显著减少运算量并改善收敛性。因此本文基于频域盲分离研究一种分频段语音分离方案。本文主要工作如下:(1)应用网上发布的众多语音数据信息,基于短时傅里叶变换(STFT)将其从时域转换到频域,进而对不同语音、不同STFT长度下各频点的峭度特性进行了计算和分析,得到了语音峭度特性的分布图;(2)在上述峭度分析结果的基础上,总结了基本的语音分频段特性,给出了语音分频段盲分离方案。(3)根据语音分频段方案,对复数负熵最大化盲分离算法进行了非线性函数设计和调整,应用多组语音混合信号进行了分离实验。实验结果表明,与全频段利用一种非线性函数相比,本文分频段切换非线性函数的方案有效提高了分离性能;(4)研究了几种窗函数及其特性,对不同窗函数的影响进行了性能对比,实验结果对频域算法有一定的指导作用。