复杂声学环境下的麦克风阵列语音定位研究

复杂声学环境下的麦克风阵列语音定位研究

论文摘要

麦克风阵列可广泛应用于音/视频会议系统、语音增强、人机接口、机器人等领域。语音定位技术是麦克风阵列信号处理的主要内容之一。麦克风阵列定位算法分为基于时延估计的定位算法和基于角度估计的定位算法。基于角度估计的定位算法对源和传感器模型有较大依赖性,多用于窄带、平稳信号的定位估计,且由于其运算量较大,并不适合说话人定位的实际应用。基于时延估计的定位算法对源信号特性和传感器模型要求比较宽泛,且其计算量较小、适应性强,因此广泛应用于说话人语音定位系统。传统的时延估计定位算法多假设于理想声学环境,而麦克风阵列应用的音/视频会议等场合常面临复杂的声学环境,这导致了传统的定位算法无法适用。与传统的声源定位相比,麦克风阵列说话人语音定位系统常面临复杂的声学环境,如房间混响干扰,有色噪声干扰,空间噪声干扰,非高斯噪声干扰以及麦克风位置误差等。本文围绕这些问题,分别针对语音定位系统中的时延估计、声源定位和语音检测三部分功能,提出了一些新的算法,实现了复杂声学环境下的说话人定位。本文的创新工作如下:(1)针对传统信道盲辨识方法抗噪性能较差的问题,提出了抗噪信道盲辨识框架,并给出了基于双麦克风的信道盲辨识方法-延迟特征值分解算法。该算法利用延迟相关矩阵来盲辨识算法,对有色噪声有较好的抑制作用。(2)在抗噪信道盲辨识的框架下,针对混响和有色噪声下的时延估计问题,提出了自适应延迟特征值分解算法。该算法通过对房间冲激响应进行辨识来抑制混响,同时采用延迟相关矩阵来抑制有色噪声。实验结果表明,该算法在混响和有色噪声环境下可以给出稳健的时延估计。(3)针对混响和空间噪声,提出了基于三麦克风的自适应延迟特征值分解时延估计算法。该算法通过对双声源三麦克风系统进行盲辨识来估计时延,并利用延迟相关矩阵来实现对空间噪声的抑制。(4)同时考虑时延估计误差和麦克风阵列位置误差,提出了线性校正总体最小二乘定位算法。该算法采用总体最小二乘误差准则,可以有效地抑制阵列位置误差,并且由于加入了位置参数的二次约束,改进了算法的稳定性。(5)针对多媒体会议房间中的鼓掌声、咳嗽声和敲门声等非高斯噪声的干扰,提出一种基于线性预测残差域高阶统计量的语音VAD检测方法。该方法利用线性预测残差域的归一化峰度作为判别准则来表征语音和非语音信号在谐波数量上的差异,可以有效地区分语音和非高斯噪声。计算机仿真实验验证了本文提出的时延估计算法、定位算法和语音VAD检测算法的有效性。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景及意义
  • 1.2 麦克风阵列声源定位方法的研究进展
  • 1.2.1 基于可控波束形成的声源定位
  • 1.2.2 基于子空间方法的声源定位
  • 1.2.3 基于时延估计的两步法声源定位
  • 1.3 麦克风阵列应用的复杂声学环境
  • 1.4 论文的研究内容与结构安排
  • 2 麦克风阵列声源定位基础
  • 2.1 麦克风阵列概念
  • 2.2 麦克风阵列声源定位算法
  • 2.2.1 基于可控波束形成的声源定位技术
  • (1) 延时求和波束形成
  • (2) 滤波求和波束形成
  • 2.2.2 基于子空间方法的声源定位技术
  • (1) 信号模型
  • (2) 子空间算法框架
  • (3) 子空间算法的宽带扩展
  • 2.2.3 基于时延估计的两步声源定位技术
  • (1) 理想环境模型
  • (2) 时延估计
  • (3) 声源定位
  • 3 混响环境下的时延估计算法研究
  • 3.1 混响环境模型和房间冲激响应模拟
  • 3.1.1 混响环境模型
  • 3.1.2 房间冲激响应模型
  • 3.1.3 房间冲激响应的简化模型
  • 60'>3.1.4 混响时间T60
  • 3.1.5 房间冲激响应的仿真
  • 3.2 抗噪声信道盲辨识框架
  • 3.2.1 单输入多输出SIMO系统模型
  • 3.2.2 有色噪声和延迟相关矩阵
  • 3.2.3 有色噪声下SIMO系统信道盲辨识准则
  • 3.3 双麦克风信道盲辨识
  • 3.3.1 有色噪声下的信道盲辨识方法(Lag-EVD)
  • 3.3.2 自相关矩阵特征值分解方法(EVD)
  • 3.3.3 预白化自相关矩阵特征值分解方法(Prewhiten-EVD)
  • 3.4 基于双麦克风信道盲辨识的自适应时延估计算法
  • 3.4.1 有色噪声和混响下的自适应时延估计算法
  • 3.4.2 自适应特征值分解时延估计算法
  • 3.4.3 预白化自适应特征值分解时延估计算法
  • 3.5 基于三麦克风信道盲辨识的自适应时延估计算法
  • 3.5.1 双输入三输出系统模型
  • 3.5.2 空间噪声和混响下的时延估计算法(TLag-AEDA)
  • 3.5.3 多通道LMS自适应算法(MCLMS)
  • 3.6 仿真实验
  • 3.6.1 房间冲激响应辨识方法的比较实验
  • 3.6.2 混响环境下时延估计性能的比较实验
  • 3.6.3 混响和有色噪声环境下时延估计性能的比较实验
  • 3.6.4 混响和空间噪声下的三麦克风时延估计性能的比较实验
  • 3.7 小结
  • 4 基于时延估计的声源定位算法研究
  • 4.1 声源定位问题描述
  • 4.2 最小二乘(LS)定位误差准则
  • 4.2.1 双曲LS误差准则
  • 4.2.2 球面LS误差准则
  • 4.3 最小二乘定位算法
  • 4.3.1 球面交叉算法(SX)
  • 4.3.2 球面内插算法(SI)
  • 4.3.3 一步最小二乘算法(OSLS)
  • 4.3.4 线性校正最小二乘算法(LCLS)
  • 4.4 线性校正总体最小二乘(LCTLS)声源定位算法
  • 4.4.1 线性校正总体最小二乘(LCTLS)声源定位算法
  • 4.4.2 线性校正总体最小二乘(LCTLS)声源定位算法的近似闭式解形式
  • 4.5 仿真实验
  • 4.6 小结
  • 5 语音检测算法研究
  • 5.1 现存语音检测算法回顾
  • 5.1.1 ITU-T G729 VAD检测
  • 5.1.2 基于线性预测残差域高阶统计量的VAD检测
  • 5.2 基于归一化峰度(NK)准则的语音VAD检测方法
  • 5.2.1 高阶统计量
  • 5.2.2 归一化峰度准则(NK)
  • 5.2.3 基于NK准则的VAD检测方法
  • (1) 线性预测滤波
  • (2) NK计算及其量化
  • (3) 语音VAD决策
  • 5.3 仿真实验与结果讨论
  • 5.3.1 语音和非高斯噪声的NK值比较
  • 5.3.2 语音VAD检测算法比较实验
  • 5.4 小结
  • 6 总结与展望
  • 6.1 本文工作总结
  • 6.2 今后研究展望
  • 参考文献
  • 攻读博士学位期间发表学术论文情况
  • 创新点摘要
  • 致谢
  • 作者简介
  • 相关论文文献

    • [1].基于翻转梅尔频率倒谱系数的语音变调检测方法[J]. 计算机应用 2019(12)
    • [2].语音助手能力评估研究及趋势分析[J]. 广东通信技术 2019(12)
    • [3].语音伪造与鉴伪的发展与挑战[J]. 信息安全学报 2020(02)
    • [4].广告语中语音隐喻的使用规则研究[J]. 传播力研究 2020(03)
    • [5].阻止语音欺诈的7种方法[J]. 计算机与网络 2020(09)
    • [6].5G初期语音业务方案与优化策略[J]. 广西通信技术 2019(03)
    • [7].在线语音直播发展动因探析[J]. 视听 2020(09)
    • [8].语音欺骗检测方法的研究现状及展望[J]. 数据采集与处理 2020(05)
    • [9].5G语音回落4G解决方案探讨[J]. 移动通信 2019(04)
    • [10].手机智能语音助手的发展与未来[J]. 通讯世界 2019(04)
    • [11].语音营销,是新机遇,还是新泡沫?[J]. 营销界 2019(02)
    • [12].语音在少数民族口传音乐中的作用——以赫哲族为例[J]. 北极光 2019(06)
    • [13].古交语音与中古语音的比较[J]. 汉字文化 2019(13)
    • [14].手机语音助手用户体验现状及发展[J]. 内蒙古煤炭经济 2019(15)
    • [15].语音助手市场增长惊人[J]. 董事会 2019(10)
    • [16].在线语音直播的兴起与发展探析[J]. 新闻研究导刊 2018(07)
    • [17].基于噪声分类和字典选择的语音活动检测[J]. 华中科技大学学报(自然科学版) 2016(12)
    • [18].语音拣选系统在汽车零部件首批仓库拣选业务中的应用[J]. 物流技术 2017(01)
    • [19].一种基于语音活动检测的声源定位方法[J]. 电脑知识与技术 2017(04)
    • [20].互联网时代语音业务发展的思考分析[J]. 中国新通信 2017(08)
    • [21].一种基于预测谱偏移的自适应高斯混合模型在语音转换中的应用[J]. 华东理工大学学报(自然科学版) 2017(04)
    • [22].语音中继主叫号码的限制[J]. 通讯世界 2017(18)
    • [23].在线语音直播开启直播新战场[J]. 新闻战线 2017(21)
    • [24].基于同轴的广电语音业务的实现[J]. 中国有线电视 2016(08)
    • [25].瑜伽语音冥想对大学生心理健康的积极影响[J]. 赤子(上中旬) 2014(15)
    • [26].语音感知和语音产出——二语语音习得研究梳辨[J]. 语文学刊(外语教育教学) 2015(04)
    • [27].国内外语语音能力研究论析[J]. 宿州学院学报 2015(06)
    • [28].关于语音转换实现的研究[J]. 价值工程 2015(29)
    • [29].浅析语音导览系统在博物馆中的应用[J]. 学理论 2015(32)
    • [30].语音反馈的实践改进[J]. 教学月刊小学版(综合) 2020(06)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    复杂声学环境下的麦克风阵列语音定位研究
    下载Doc文档

    猜你喜欢