语音频带扩展算法的研究

论文摘要

人类语音的频带信息主要分布在50Hz-8kHz的频率范围内。但是由于受位率等因素的影响,大多数电话通信系统中传输的都是300Hz-3.4kHz的窄带语音。与宽带语音相比,窄带语音的质量要差很多。在电话会议等对语音质量要求较高的场合,窄带语音不能满足需要。因此,研究从窄带语音到宽带语音的频带扩展算法有着重要的现实意义。码本映射法是目前应用最广的语音频带扩展算法。码本映射法由于一个窄带语音的特征矢量只能对应一个宽带语音的特征矢量而导致在码本映射中会出现偏差,使得宽带语音谱包络估计不够准确,从而出现失真。本文针对这个问题提出了加权的码本映射法,即以码本映射法为基础,在码本映射的过程中,加入了加权求和。这样可以使得映射得到的码本更加接近于原始宽带语音谱包络矢量,从而使得谱包络估计的失真更小。主客观测试表明,此算法的频带扩展效果比码本映射法好。大多数现有的语音频带扩展算法使用的是线性预测模型,提取的参数过于简单,使得宽带谱包络估计不够准确。本文针对这个问题提出了基于自适应码本频带复制的语音频带扩展算法,即以AMR-WB为基本原理进行语音频带扩展。此算法的优点在于采用开环和闭环相结合的方法计算基音延时,用固定码本和自适应码本相结合的方法还原激励,突破了传统的语音频带扩展算法中仅使用语音信号线性预测模型和二元激励所带来的限制。而且在频带扩展后加入EQ均衡来调节高频分量。主客观测试表明,此算法的频带扩展效果比码本映射法和加权的码本映射法都好。其中,主观测试中的MOS评分比加权的码本映射法高0.1;客观测试中的对数谱失真比加权的码本映射法低1.61。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 选题依据和研究意义

1.2 国内外研究现状

1.3 主要工作和创新

1.4 论文结构安排

第二章基本的语音处理技术及评价方法

2.1 语音信号的预处理

2.1.1 预加重

2.1.2 分帧和加窗

2.2 线性预测分析

2.2.1 语音信号的线性预测模型

2.2.2 线谱对参数

2.2.3 导抗谱对参数

2.3 语音信号的评价方法

2.3.1 主观评价方法

2.3.2 客观评价方法

2.4 本章小结

第三章基于加权码本映射的语音频带扩展

3.1 码本映射法

3.2 改进的码本映射法

3.3 总体设计

3.4 实验结果

3.4.1 客观测试结果

3.4.2 主观测试结果

3.5 本章小结

第四章基于自适应码本频带复制的语音频带扩展

4.1 AMR-WB 算法

4.1.1 AMR-WB 编码

4.1.2 AMR-WB 解码

4.2 自适应码本频带复制法

4.3 模块设计

4.3.1 参数提取

4.3.2 频带复制

4.3.3 参数解码

4.3.4 激励信号的重构

4.3.5 合成滤波器和带通滤波器

4.3.6 EQ 均衡

4.4 实验结果

4.4.1 客观测试结果

4.4.2 主观测试结果

4.5 本章小结

第五章总结和展望

致谢

参考文献

攻读硕士学位期间的主要成果

语音频带扩展算法的研究

论文摘要

论文目录

相关论文文献

猜你喜欢