论文摘要
语音信号处理技术是计算机智能接口与人机交互的重要手段之一。随着电子计算机和人工智能的发展,语音的编码、合成及识别等技术在人们的生活中得到了越来越多的应用。而语音信号特征参数的精确提取是这些语音信号处理技术的关键所在。语音信号是一个复杂的非线性、非平稳随机过程,这使得基于线性和平稳性系统理论发展起来的传统语音信号处理技术性能难以进一步提高。本文研究了一种能够有效反映信号非线性和非平稳性特征的信号处理方法Hilbert-Huang变换,针对Hilbert-Huang变换的端点效应、停止准则及瞬时频率和瞬时幅度的估计等问题,提出了相应的改进算法。并用改进后的Hilbert-Huang变换研究了语音信号的基音检测算法与共振峰提取算法。本文首先研究了Hilbert-Huang变换的端点效应、停止准则及瞬时频率和瞬时幅度的估计等问题,并提出了三点改进。一是结合语音信号本身的特征,提出了一种基于语音信号的分段和延拓方法;二是利用各个固有模态函数相互正交的特性,提出了基于固有模态函数正交的停止准则;三是研究了Hilbert解调方法的局限性,提出用能量分离算法估计瞬时频率和瞬时幅度。仿真实验结果表明这些改进方法对Hilbert-Huang变换的端点效应及模态混叠具有很好的抑制作用。本文利用改进后的Hilbert-Huang变换研究了语音信号的基音检测算法。根据Hilbert-Huang变换的瞬时能量表示方法,提出了瞬时频率加权能量表示方法,与Hilbert-Huang变换的瞬时能量表示方法相比,信号的瞬时频率加权能量不仅能反映信号的瞬时能量还反映信号的能量密度。通过语音信号的瞬时频率加权能量精确定位声门脉冲的发生时刻,从而精确提取语音信号的基音。仿真实验结果表明,与使用传统的瞬时能量方法相比,本方法更能够表现信号真实的瞬时能量信息,从而能提高基音检测的准确率。由于不需要对语音信号进行预加重,从而提高了算法的抗噪性能。此外本文还研究了语音信号的共振峰提取算法,提出了一种基于Hilbert-Huang变换的共振峰提取算法。根据语音信号的声道调频-调幅模型,利用经验模态分解的自适应带通滤波特性把语音信号的各个共振峰分离开来,用能量分离算法求出各个共振峰的瞬时频率和瞬时幅度,通过共振峰的频率特征及幅度特征来提取真实的共振峰信息。仿真实验结果表明,该方法不仅能有效地抑制虚假峰值和高调语音的影响,还能精确地跟踪共振峰频率的变化。