音频感知编码模型及关键技术的研究

论文摘要

关于音频感知编码模型的研究主要集中在两个方面:一是各种音频压缩编码算法的研究;二是音频编解码器实现技术的研究。当前,随着移动通讯网络的普及,音频产品的传播变得更加频繁和方便,但移动设备终端的计算能力和存储容量都是有限的,因此,低复杂度高质量的音频编码算法研究和系统实现成为数字音频处理领域的研究热点之一。为实现一个低复杂度高质量的音频编解码器,本论文的工作主要围绕下述两个方面展开:在算法级上,选择音频感知编码模型中具有突出优点的AAC编码系统为研究对象,分别在频域变换、心理声学分析和量化编码这三大关键模块中进行算法优化,在保证编码质量的前提下,降低运算复杂度,减小编码耗时;在实现技术方面,采用SOPC设计策略,使用“微处理器软核+专用IP核”的模式进行软硬件协同工作,在FPGA开发平台上实现一个低复杂度高音质的AAC编解码系统。本文的主要工作和创新如下:（1）滤波器组是音频感知编码模型中的计算密集型模块,占用较大的运算量。本文针对滤波器组的快速实现算法进行了研究,分别提出了两种改进方案——基于递归结构和基于N/8点FFT核的MDCT/IMDCT快速实现方案,适于IP核设计并可以实现MDCT/IMDCT电路共用。第一种方案具有电路规整、占用硬件资源少、运算速度快和吞吐能力强等优点,与现有递归算法相比,只需要N2/16个周期就可以完成N点MDCT/IMDCT变换。第二种方案,相对于目前流行的基于N/4点FFT核的实现方法,增加了一些加法器,但降低了对乘法器数目的需求,减小了计算误差,同时将运算速度提升了近一倍。（2）为消除预回声的影响,音频感知编码模型在心理声学模块中通过暂态分析,判断信号的瞬变性,以指导变换编码中自适应长短块的切换。本文结合入耳听觉特性和音频编码特点,草拟了一种听觉感知阈值的拟合模型框架,并且,分析了基于感知熵的块类型选择算法存在的缺点,提出了一种简单的暂态分析方法——时域峰值检测法,能在时域上快速判断出音频信号的瞬变性,从而,对平稳信号和瞬变信号使用不同的变换窗长度,以获取较好的时域分辨率和频域分辨率。在对音质影响不大的前提下,提高了心理声学模型的计算速度。（3）音频感知编码模型中使用Brandenburg的双循环量化处理结构,可以获取较好的编码质量,但存在收敛速度慢、迭代次数多的缺点,不具备实时处理能力。本文在原量化模块设计思想的指导下,提出了基于噪声预测的量化-编码结构。通过确定公共缩放因子和尺度因子的制约关系,缩小量化阶的迭代范围,加快了收敛速度,简化了量化模块的运算复杂度。与原有双循环迭代结构相比,在对音质影响不大的前提下,运算速度提高了一倍。相应地,在反量化模块中,提出了一种改进型的查表方法,与现有算法相比,减少了50%的存储空间,并将计算误差控制在10-6级别内。（4）依据嵌入式系统实时操作和可编程化的要求,本文提出了一种基于SOPC架构的数字音频编解码系统的可编程实验模型。选择MPEG AAC为实验对象,通过对编解码系统中关键模块的算法改进和部分电路的硬件优化,软硬件协同设计,降低编解码的运算复杂度。在保证编码质量的前提下,系统的编码速度提高了一倍,并且实现了实时解码。经过主/客观评测系统评估,取到了较好的编码质量评测分数。

论文目录

摘要

ABSTRACT

第1章绪论

1.1 研究背景及意义

1.2 数字音频编码技术的发展及现状

1.2.1 子带/变换编码方法

1.2.2 数字音频压缩的标准化

1.2.3 几种常用的音频编码标准

1.2.4 音频编解码器实现技术的现状

1.3 论文的研究思路

1.4 论文的主要内容及结构安排

1.4.1 主要内容

1.4.2 论文结构

1.5 本章小结

第2章音频感知编码的理论基础和关键技术

2.1 编码的基础理论

2.1.1 信息测度

2.1.2 平均码长

2.1.3 编码效率

2.1.4 冗余度

2.2 相关冗余的消除

2.2.1 频域变换

2.2.2 预测技术

2.2.3 M/S立体声

2.3 编码冗余的消除

2.3.1 等长编码

2.3.2 Huffman编码

2.3.3 算术编码

2.4 心理声学冗余的消除

2.4.1 听觉特性

2.4.2 临界频带

2.4.3 掩蔽效应

2.4.4 心理声学模型

2.5 其他编码技术

2.5.1 量化处理

2.5.2 时域噪声整形

2.5.3 强度立体声

2.6 音频保真度和质量

2.6.1 主观保真度准则

2.6.2 客观保真度准则

2.7 本章小结

第3章音频编码的感知模型

3.1 心理声学参数的计算

3.1.1 感知熵PE

3.1.2 块类型选择

3.1.3 信掩比和掩蔽阈值

3.1.4 比特数计算

3.1.5 存在的不足

3.2 感知听觉模型的进一步推想

3.2.1 CMDCT频域分析

3.2.2 Mel倒谱分析

3.2.3 听觉阈值的拟合

3.3 暂态分析方法的改进

3.3.1 基于感知熵的块类型选择

3.3.2 新的时域峰值检测方法

3.3.3 实验分析

3.4 本章小结

第4章滤波器组实现技术的优化研究

4.1 滤波器组

4.1.1 加窗技术

4.1.2 MDCT定义公式

4.1.3 重构和叠加

4.2 基于递归结构的MDCT/IMDCT快速算法

4.2.1 优化模型及设计方法

4.2.2 算法比较和分析

4.2.3 FPGA验证

4.3 基于N/8点FFT核的MDCT快速实现

4.3.1 优化模型及设计方法

4.3.2 算法比较和分析

4.3.3 FPGA验证

4.4 本章小结

第5章量化模块的优化方法研究

5.1 基于噪声能量的量化模块简化

5.1.1 双循环结构的量化模块

5.1.2 双循环迭代的简化

5.1.3 实验分析

5.2 反量化模块的软件优化

5.2.1 定义公式

5.2.2 优化方法

5.2.3 实验分析

5.3 本章小结

第6章低复杂度高保真音频编解码系统的SOPC建模

6.1 SOPC系统的软硬件协同设计

6.2 AAC编码算法及SOPC建模

6.2.1 算法流程分析

6.2.2 模块复杂度分析及软硬件划分

6.3 AAC解码算法及SOPC建模

6.3.1 算法流程分析

6.3.2 模块复杂度分析及软硬件划分

6.4 SOPC系统中MDCT/IMDCT硬件模块的设计

6.4.1 功能说明

6.4.2 接口设计

6.4.3 子模块设计

6.4.4 实验结果

6.5 SOPC系统中Huffman解码模块的硬件设计

6.5.1 功能说明

6.5.2 接口设计

6.5.3 子模块设计

6.5.4 实验结果

6.6 SOPC系统的软件优化

6.7 软硬件协同设计的验证

6.7.1 计算复杂度对比

6.7.2 音频质量评测

6.8 本章小结

第7章结束语

7.1 论文总结

7.2 进一步的工作

参考文献

致谢

在读期间发表的学术论文与取得的其他研究成果

音频感知编码模型及关键技术的研究

论文摘要

论文目录

相关论文文献

猜你喜欢