翘曲离散傅立叶变换算法与语音处理新方法研究

论文题目: 翘曲离散傅立叶变换算法与语音处理新方法研究

论文类型: 博士论文

论文专业: 通信与信息系统

作者: 章熙春

导师: 韦岗

关键词: 非均匀离散傅立叶变换,翘曲离散傅立叶变换,语音信号处理,快速算法

文献来源: 华南理工大学

发表年度: 2005

论文摘要: 翘曲离散傅立叶变换(Warped Discrete Fourier Transform，WDFT)是本世纪初才刚刚开始受到重视的。它提供了在不增加采样数目N的情况下，对任意选定的频谱区域增加频谱精度的一种良好选择。它可以通过选择适当阶次的全通翘曲函数并调整其翘曲参数从而得到我们选定的任何确切点上的频谱采样值，因而可作为数字信号处理(Digital Signal Processing，DSP)中非常有用的工具。将WDFT与被分析信号的频率特性相结合，通过选择全通翘曲函数及其翘曲参数，可以将待处理信号的重点频段的频谱精度大幅提高，又能保持信号非重点频段的频谱精度的基本要求。WDFT对某些特定信号，特别是语音信号的分析有相当重要的作用。本文在深入分析WDFT的基本理论和快速算法之后，结合语音信号的特点，提出了一些基于WDFT的语音信号处理的新算法，这些新算法的分析效率较传统算法有较大的提高，并且计算次数减少，计算复杂度降低。WDFT是DSP领域极为重要的新技术，本文对WDFT的理论与算法以及语音处理新方法进行了较为系统的研究，其主要内容及成果如下： 1．在分析了HMM模型及常用语音特征的基础上，提出了一种基于WDFT的语音识别新算法，并给出了新算法的实现流程。这种新算法是通过在频域中非均匀地抽取频谱来获得PLP语音特征的。为更好地拟合频域上非均匀分布的滤波器组(Filter Bank，FB)，我们筛选出合适的翘曲参数，提高了语音信号低频段的频谱精度，使之更符合人耳的听觉特征。实验表明，这种新算法比MFCC算法更适用于语音识别中比较困难的易混淆音的识别，从而能达到更高的识别率。 2．提出了一种基于WDFT的改进MFCC特征提取新算法，即WDFT-WFBA-MFCC算法。我们知道，加权滤波器组分析(Weighted Filter Bank Analysis，WFBA)可以提升Mel滤波器组输出能量的差分分布，当采用第Ⅱ型加权函数时，不需要预先决定模糊因子F，因而其计算复杂度更低。考虑在一阶全通翘曲函数中适当选取翘曲参数，便可以很好地拟合非均匀分布的FB，大大提高语音信号低频部分的频谱分辨率，又不丢失高频部分的信息，更符合人耳的生理心理特征。将本文所提算法应用到TIMIT连续语音数据库中DRI音素的识别，得到的结果表明，新算法较传统的MFCC算法有更高的识别率。 3．计算听觉场景分析(Computational Auditory Scene Analysis，CASA)在声音信号处理领域潜在的应用价值已引起越来越多的关注。本文在分析了主要的

论文目录:

摘要

Abstract

第一章绪论

1.1 傅立叶变换

1.2 翘曲离散傅立叶变换(WDFT)

1.2.1 WDFT的基本概念

1.2.2 WDFT的主要特点

1.3 WDFT的研究意义和进展情况

1.3.1 WDFT的研究意义

1.3.2 WDFT的进展情况

1.4 WDFT的一般应用分析

1.4.1 信号分析

1.4.2 可调谐FIR滤波器的设计

1.4.3 翘曲滤波器的设计

1.5 本文的主要工作和章节安排

第二章一维翘曲离散傅立叶变换(1D-WDFT)算法

2.1 离散傅立叶变换的频谱精度

2.2 非均匀离散傅立叶变换(NDFT)

2.2.1 NDFT的定义及性质

2.2.2 逆NDFT的敏感性问题

2.3 1-D WDFT

2.3.1 定义、实现和性质

2.3.2 Q的结构

2.3.3 运算次数

2.3.4 逆WDFT的敏感性问题

2.3.5 逆WDFT的计算

2.3.6 一阶全通翘曲函数AWF的理论分析

2.3.6.1 参数α为实数的一阶翘曲

2.3.6.2 参数α为复数的一阶翘曲

2.3.7 计算复杂度分析

2.3.8 二阶AWF的理论分析

2.3.8.1 参数均为实数的二阶翘曲

2.3.8.2 参数均为复数的二阶翘曲

2.4 本章小结

第三章基于WDFT的PLP语音特征提取算法

3.1 引言

3.2 语音识别简介

3.2.1 HMM模型的基本原理

3.2.1.1 HMM模型的基本结构

3.2.1.2 基于HMM的孤立词语音识别

3.2.1.3 HMM模型的训练

3.2.2 Viterbi解码

3.2.3 常用的语音特征

3.2.3.1 LPCC

3.2.3.2 MFCC

3.2.3.3 PLP

3.3 基于WDFT的PLP特征提取算法

3.4 实验结果

3.5 本章小结

第四章基于WDFT的改进MFCC特征提取算法

4.1 引言

4.2 加权滤波器组分析

4.3 基于WDFT的改进的MFCC特征提取算法

4.4 实验结果及分析

4.4.1 不同翘曲参数的测试

4.4.2 不同频点数的测试

4.5 本章小结

第五章基于WDFT的语音分离与合成

5.1 引言

5.2 基于计算听觉场景分析的语音分离方法

5.2.1 计算听觉场景分析

5.2.2 混叠语音的听觉场景分析

5.3 基于WDFT的元音分离与合成

5.3.1 正弦语音模型

5.3.2 基频轨迹的提取

5.3.3 基于WDFT的谐波谱参数估计

5.3.4 语音合成

5.4 实验结果及分析

5.5 本章小结

第六章 2-D WDFT及其快速算法

6.1 引言

6.2 二维非均匀离散傅立叶变换(2-D NDFT)

6.2.1 2-D NDFT的定义

6.2.2 2-D NDFT的特殊情况

6.3 二维翘曲离散傅立叶变换(2-D WDFT)

6.4 2-D WDFT的快速算法

6.5 实验结果

6.6 本章小结

第七章一种基于模糊规则的鲁棒语音识别方法

7.1 引言

7.2 基于滤波器组语音特征的丢失数据技术

7.2.1 丢失数据原理

7.2.2 不可靠分量的检测

7.2.3 数据估计技术

7.2.4 边缘概率技术

7.3 基于模糊规则的鲁棒语音识别原理

7.4 在倒谱识别系统中的实现

7.5 实验结果

7.5.1 与丢失数据技术的比较

7.5.2 与声学后退技术的比较

7.5.3 模糊规则的有效性

7.6 本章小结

结论

参考文献

攻读博士期间完成论文

致谢

发布时间: 2006-09-19

翘曲离散傅立叶变换算法与语音处理新方法研究

猜你喜欢