非线性滤波及其在说话人跟踪中的应用研究

论文摘要

说话人定位是语音信号处理的重要内容之一,在语音增强、视频会议系统、人机交互、机器人等领域有广阔的应用前景。传统的说话人定位方法利用麦克风阵列在当前时刻接收到的语音信息进行定位,在自由声场条件下,能给出良好的定位效果。但是,在环境噪声与房间混响均存在的复杂声场条件下,该定位方法会由于虚声源的出现而错误地估计说话人位置。因此,需要采用声源跟踪的方法确定说话人位置,以提高说话人位置的估计精度。说话人跟踪是一种典型的非线性滤波问题。本文在贝叶斯估计框架下,以系统状态的后验概率密度函数为线索,对高斯和非高斯两类不同的非线性滤波方法,在滤波精度、鲁棒性和计算量等方面进行了改进。同时,将非线性滤波方法应用于说话人跟踪问题,提出了一些具有针对性的改进措施。本论文取得的主要创新成果如下:（1）在高斯分布条件下,提出了迭代的sigma点卡尔曼滤波（ISPKF）方法,该方法通过重复利用观测信息,提高了SPKF方法的估计精度。针对传统的迭代方法稳定性较差的问题,在非线性优化理论基础上,利用Levenberg-Marquardt方法调整预测协方差阵,保证了迭代滤波方法的全局收敛性。（2）传统的贝叶斯估计方法建立在H2准则基础上,以均方误差为代价函数,要求系统模型较为准确并且外部干扰信号的统计特性确切已知。但在实际应用中,不仅外部干扰信号的统计特性难以准确了解,而且系统模型本身也存在一定程度的不确定性。本文在H∞范数意义下,将统计线性化技术应用到鲁棒滤波系统,提出了H∞sigma点卡尔曼滤波方法（HSPKF）。该方法用sigma点转换技术减小了线性化误差,用H∞滤波方法提高了滤波系统对不确定性噪声的适应能力,从而增强了系统的鲁棒性。（3）在粒子滤波框架下,提出了基于均值漂移的拟蒙特卡洛滤波方法,该方法以确定性采样代替随机采样,利用拟蒙特卡洛积分中的低偏差序列代替随机采样点集合,使采样粒子在状态空间上均匀分布,最大程度地互相远离,从而降低了滤波过程中的积分误差,提高了状态估计精度;同时,用均值漂移技术调整采样粒子的空间位置,使采样粒子沿梯度方向向高似然区域移动,从而增加了滤波过程中有效采样粒子的个数,减少了所需采样粒子的数目,降低了计算需求。（4）针对重采样过程导致采样粒子多样性丧失、计算量增大的问题,本文提出了基于充分统计量的粒子滤波方法。对后验概率密度函数可以用充分统计量描述且充分统计量易于更新的情况,该方法通过充分统计量的传递代替后验概率密度函数的更新,这样,由于新的采样粒子从连续的而不是离散的分布函数中抽样获得,因而不会发生粒子退化现象,也不需要再进行重采样过程,从而降低了计算量。（5）根据说话人运动的特点,本文用多种模型描述说话人的运动状态,提出了基于采样交互的多模型粒子滤波方法。该方法在说话人跟踪过程中,通过调整粒子的采样区域来完成多模型方法中滤波器输入的交互过程,这不仅实现了对各滤波器中采样粒子数目的直接控制,避免了模型转换过程中的性能退化现象,而且摒弃了对各模型后验概率密度函数的高斯假定,使算法能适应任意的概率分布形式,增强了说话人跟踪系统的鲁棒性。（6）利用信息融合技术,提出了一种联合波达方向和时间延迟信息的说话人跟踪方法。考虑到波达方向和时间延迟两种观测信息对说话人位置估计精度的差异,该方法利用分层采样技术,将波达方向滤波器的状态估计结果,作为时间延迟跟踪方法的建议分布函数,这样就通过改善建议分布函数的质量,提高了粒子滤波器的采样效率,降低了说话人的跟踪误差。

论文目录

摘要

Abstract

1 绪论

1.1 研究背景及意义

1.2 说话人定位问题研究现状

1.2.1 说话人定位

1.2.2 时间延迟估计

1.3 非线性滤波方法综述

1.3.1 高斯非线性滤波方法

1.3.2 非高斯非线性滤波方法

1.4 论文的研究内容与结构安排

2 贝叶斯估计及其最优实现形式

2.1 贝叶斯估计

2.2 递推估计

2.3 贝叶斯估计的几种最优实现形式

2.3.1 卡尔曼滤波方法

2.3.2 网格滤波方法

2.4 本章小结

3 高斯非线性滤波方法

3.1 引言

3.2 EKF滤波方法

3.2.1 EKF滤波方法

3.2.2 EKF的缺陷

3.3 sigma点卡尔曼滤波方法

3.3.1 无轨迹卡尔曼滤波方法

3.3.2 中心差分卡尔曼滤波方法

3.3.3 sigma点卡尔曼滤波方法

3.4 迭代的sigma点滤波方法

3.4.1 观测更新过程中迭代方法的优化解释

3.4.2 迭代方法的改进

3.4.3 仿真实例

3.5 鲁棒的sigma点卡尔曼滤波方法

∞滤波问题'>3.5.1 H_∞滤波问题

∞ sigma点卡尔曼滤波方法'>3.5.2 H_∞sigma点卡尔曼滤波方法

3.5.3 仿真实例

3.6 高斯滤波方法在积分意义下的统一描述形式

3.6.1 高斯滤波器的统一形式

3.6.2 不同滤波方法的积分近似解释

3.7 本章小结

4 粒子滤波方法

4.1 引言

4.2 粒子滤波方法

4.2.1 蒙特卡洛积分

4.2.2 重要性采样

4.2.3 序贯重要性采样

4.3 粒子滤波方法中的相关问题

4.3.1 重采样

4.3.2 建议分布函数的选取

4.3.3 方差减小技术

4.3.4 计算量问题

4.4 拟蒙特卡洛粒子滤波方法

4.4.1 拟蒙特卡洛积分

4.4.2 基于均值漂移的拟蒙特卡洛方法

4.4.3 仿真实例

4.5 基于充分统计量的粒子滤波方法

4.5.1 充分统计量及其在粒子滤波方法中的应用

4.5.2 状态和参数的联合估计问题

4.5.3 仿真实例

4.6 本章小结

5 非线性滤波在说话人跟踪中的应用

5.1 引言

5.2 说话人定位中的基本问题

5.2.1 问题描述

5.2.2 信号模型

5.2.3 说话人定位方法

5.3 时延估计说话人定位方法

5.3.1 时间延迟估计

5.3.2 基于时间延迟的定位方法

5.4 基于粒子滤波的说话人跟踪

5.4.1 关于传统定位方法的讨论

5.4.2 基于粒子滤波的说话人跟踪方法

5.5 基于交互式多模型的说话人跟踪方法

5.5.1 IMM方法

5.5.2 基于采样交互的IMM粒子滤波方法

5.5.3 计算机仿真结果

5.6 融合波达方向和时间延迟信息的说话人跟踪方法

5.6.1 分层采样方法

5.6.2 基于分层采样的说话人跟踪方法

5.6.3 计算机仿真结果

5.7 本章小结

6 总结与展望

6.1 论文总结

6.2 研究展望

参考文献

攻读博士学位期间发表学术论文情况

致谢

非线性滤波及其在说话人跟踪中的应用研究

论文摘要

论文目录

相关论文文献

猜你喜欢