论文摘要
说话人定位是语音信号处理的重要内容之一,在语音增强、视频会议系统、人机交互、机器人等领域有广阔的应用前景。传统的说话人定位方法利用麦克风阵列在当前时刻接收到的语音信息进行定位,在自由声场条件下,能给出良好的定位效果。但是,在环境噪声与房间混响均存在的复杂声场条件下,该定位方法会由于虚声源的出现而错误地估计说话人位置。因此,需要采用声源跟踪的方法确定说话人位置,以提高说话人位置的估计精度。说话人跟踪是一种典型的非线性滤波问题。本文在贝叶斯估计框架下,以系统状态的后验概率密度函数为线索,对高斯和非高斯两类不同的非线性滤波方法,在滤波精度、鲁棒性和计算量等方面进行了改进。同时,将非线性滤波方法应用于说话人跟踪问题,提出了一些具有针对性的改进措施。本论文取得的主要创新成果如下:(1)在高斯分布条件下,提出了迭代的sigma点卡尔曼滤波(ISPKF)方法,该方法通过重复利用观测信息,提高了SPKF方法的估计精度。针对传统的迭代方法稳定性较差的问题,在非线性优化理论基础上,利用Levenberg-Marquardt方法调整预测协方差阵,保证了迭代滤波方法的全局收敛性。(2)传统的贝叶斯估计方法建立在H2准则基础上,以均方误差为代价函数,要求系统模型较为准确并且外部干扰信号的统计特性确切已知。但在实际应用中,不仅外部干扰信号的统计特性难以准确了解,而且系统模型本身也存在一定程度的不确定性。本文在H∞范数意义下,将统计线性化技术应用到鲁棒滤波系统,提出了H∞sigma点卡尔曼滤波方法(HSPKF)。该方法用sigma点转换技术减小了线性化误差,用H∞滤波方法提高了滤波系统对不确定性噪声的适应能力,从而增强了系统的鲁棒性。(3)在粒子滤波框架下,提出了基于均值漂移的拟蒙特卡洛滤波方法,该方法以确定性采样代替随机采样,利用拟蒙特卡洛积分中的低偏差序列代替随机采样点集合,使采样粒子在状态空间上均匀分布,最大程度地互相远离,从而降低了滤波过程中的积分误差,提高了状态估计精度;同时,用均值漂移技术调整采样粒子的空间位置,使采样粒子沿梯度方向向高似然区域移动,从而增加了滤波过程中有效采样粒子的个数,减少了所需采样粒子的数目,降低了计算需求。(4)针对重采样过程导致采样粒子多样性丧失、计算量增大的问题,本文提出了基于充分统计量的粒子滤波方法。对后验概率密度函数可以用充分统计量描述且充分统计量易于更新的情况,该方法通过充分统计量的传递代替后验概率密度函数的更新,这样,由于新的采样粒子从连续的而不是离散的分布函数中抽样获得,因而不会发生粒子退化现象,也不需要再进行重采样过程,从而降低了计算量。(5)根据说话人运动的特点,本文用多种模型描述说话人的运动状态,提出了基于采样交互的多模型粒子滤波方法。该方法在说话人跟踪过程中,通过调整粒子的采样区域来完成多模型方法中滤波器输入的交互过程,这不仅实现了对各滤波器中采样粒子数目的直接控制,避免了模型转换过程中的性能退化现象,而且摒弃了对各模型后验概率密度函数的高斯假定,使算法能适应任意的概率分布形式,增强了说话人跟踪系统的鲁棒性。(6)利用信息融合技术,提出了一种联合波达方向和时间延迟信息的说话人跟踪方法。考虑到波达方向和时间延迟两种观测信息对说话人位置估计精度的差异,该方法利用分层采样技术,将波达方向滤波器的状态估计结果,作为时间延迟跟踪方法的建议分布函数,这样就通过改善建议分布函数的质量,提高了粒子滤波器的采样效率,降低了说话人的跟踪误差。
论文目录
相关论文文献
标签:非线性滤波论文; 说话人跟踪论文; 麦克风阵列论文; 贝叶斯估计论文; 卡尔曼滤波论文; 粒子滤波论文; 蒙特卡洛论文; 无轨迹转换论文;