甚低速率语音编码器算法研究

甚低速率语音编码器算法研究

论文摘要

在现有语音编码标准中,混合激励线性预测编码(Mixed Excitation Linear Prediction, MELP)是一种比较好的方法。它在传统的二元激励线性预测编码(Linear Predictive Coding, LPC)的基础上作了改进,采用了混合激励、非周期脉冲、自适应谱增强、脉冲整形滤波和傅氏幅度五项新技术,使得合成语音更好地拟合自然语音。本文详细分析了MELP编解码过程,在此基础上,提出800bps、600bps两种甚低速率语音编码,具体工作如下:针对传统的LBG算法训练码本会陷入局部最优,不能获得全局最小值的缺点,提出应用模拟退火算法设计码本,与LBG算法相比,平均失真得到了降低。.在分析线谱频率性能的基础上,通过加噪方法模拟论证其优良量化特性,同时提出预测分类多级矢量量化这种高效的量化方案,与多级矢量量化、分裂矢量量化相比较,其量化性能最好,当然这是以增加一定的内存为代价的。针对标准2.4kbps MELP编码中子带清浊划分太过简单的缺点,提出应用更加严格的临界带划分准则,更好地考虑了人耳听觉感知;由于预处理高通滤波和自适应谱增强对部分男性低基音语音的副作用,应用滤波器补偿方法,改善了编码的男性语音质量。在标准2.4kbps MELP编码的基础上,为充分利用各参数的帧内、帧间相关性,提出采用多帧联合、超级帧分模式量化、谱相似性插值、增大帧长等技术,分别设计了800bps、600bps两种速率的甚低速率声码器。主观听觉测试表明800bps、600bps编码器的合成语音质量均优于传统2.4kbpsLPC-10算法,略逊于标准2.4kbpsMELP算法。其中,800bps声码器合成语音可懂度和清晰度都很好,并具有一定的自然度;600bps声码器也有较好的可懂度。

论文目录

  • 表目录
  • 图目录
  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 语音编码
  • 1.1.1 语音编码概述
  • 1.1.2 语音编码分类
  • 1.1.3 衡量语音编码的性能指标
  • 1.2 甚低速率语音编码概述
  • 1.2.1 甚低速率编码理论依据
  • 1.2.2 语音编码的极限速率
  • 1.2.3 甚低速语音编码国内外研究状况
  • 1.3 课题背景及本文主要工作
  • 1.4 论文组织结构
  • 第二章 语音编码主要技术
  • 2.1 语音信号的线性预测分析
  • 2.1.1 线性预测分析的基本原理
  • 2.1.2 线性预测系数的解法
  • 2.1.3 线性预测分析的应用
  • 2.2 语音信号的矢量量化
  • 2.2.1 失真测度
  • 2.2.2 LBG算法
  • 2.2.3 模拟退火算法设计码本
  • 2.3 小结
  • 第三章 LPC高效量化技术
  • 3.1 LPC参数的推演参数
  • 3.1.1 反射系数(Reflection Coefficient,RC)
  • 3.1.2 对数面积比系数(Log Area Ratio,LAR)
  • 3.1.3 倒谱系数(Cepstral Coefficient)
  • 3.2 线谱频率
  • 3.2.1 线谱频率的计算
  • 3.2.2 线谱频率的性质
  • 3.3 线谱频率的量化
  • 3.3.1 失真测度
  • 3.3.2 客观评阶指标
  • 3.3.3 多级矢量量化
  • 3.3.4 分裂矢量量化
  • 3.3.5 预测分类多级矢量量化
  • 3.4 小结
  • 第四章 基于MELP的800bps编码算法与实现
  • 4.1 甚低速率语音编码的主要实现方法
  • 4.2 800bps MELP编码算法设计与实现
  • 4.3 参数提取分析
  • 4.3.1 预处理
  • 4.3.2 各种参数的加窗位置
  • 4.3.3 基音周期和带通声音强度估计
  • 4.3.4 LP分析和预测误差分析
  • 4.3.5 残差信号峰值计算及其对子带清浊的影响
  • 4.3.6 最终基音周期计算
  • 4.4 各种参数的量化与编码
  • 4.4.1 带通声音强度的量化
  • 4.4.2 基音周期的量化
  • 4.4.3 增益的计算与量化
  • 4.4.4 傅立叶幅度的计算与量化
  • 4.4.5 LSF参数的计算和量化
  • 4.4.6 比特流打包
  • 4.5 译码原理
  • 4.5.1 基音周期的译码
  • 4.5.2 增益的译码
  • 4.5.3 LSF参数的译码
  • 4.5.4 傅立叶幅度译码
  • 4.5.5 子带清浊的译码和非周期标志的设定
  • 4.6 语音合成过程
  • 4.6.1 参数的插值
  • 4.6.2 混合激励的生成
  • 4.6.3 自适应谱增强
  • 4.6.4 线性预测合成
  • 4.6.5 增益的校正(Gain Ajustment)
  • 4.6.6 脉冲散布滤波
  • 4.6.7 合成环路控制(Synthesis Loop Control)
  • 4.7 算法实现及结果分析
  • 4.8 小结
  • 第五章 基于MELP编码的600bps语音编码
  • 5.1 基于MELP编码的600bps编码方案
  • 5.1.1 帧模式选择
  • 5.1.2 比特分配
  • 5.2 帧参数的量化
  • 5.2.1 子带清浊的量化
  • 5.2.2 基音周期的量化
  • 5.2.3 LSF参数的量化
  • 5.2.4 增益的量化
  • 5.3 解码
  • 5.4 算法实现及结果分析
  • 5.5 小结
  • 结束语
  • 参考文献
  • 作者简历 攻读硕士学位期间完成的主要工作
  • 致谢
  • 相关论文文献

    • [1].基于翻转梅尔频率倒谱系数的语音变调检测方法[J]. 计算机应用 2019(12)
    • [2].语音助手能力评估研究及趋势分析[J]. 广东通信技术 2019(12)
    • [3].语音伪造与鉴伪的发展与挑战[J]. 信息安全学报 2020(02)
    • [4].广告语中语音隐喻的使用规则研究[J]. 传播力研究 2020(03)
    • [5].阻止语音欺诈的7种方法[J]. 计算机与网络 2020(09)
    • [6].5G初期语音业务方案与优化策略[J]. 广西通信技术 2019(03)
    • [7].在线语音直播发展动因探析[J]. 视听 2020(09)
    • [8].语音欺骗检测方法的研究现状及展望[J]. 数据采集与处理 2020(05)
    • [9].5G语音回落4G解决方案探讨[J]. 移动通信 2019(04)
    • [10].手机智能语音助手的发展与未来[J]. 通讯世界 2019(04)
    • [11].语音营销,是新机遇,还是新泡沫?[J]. 营销界 2019(02)
    • [12].语音在少数民族口传音乐中的作用——以赫哲族为例[J]. 北极光 2019(06)
    • [13].古交语音与中古语音的比较[J]. 汉字文化 2019(13)
    • [14].手机语音助手用户体验现状及发展[J]. 内蒙古煤炭经济 2019(15)
    • [15].语音助手市场增长惊人[J]. 董事会 2019(10)
    • [16].在线语音直播的兴起与发展探析[J]. 新闻研究导刊 2018(07)
    • [17].基于噪声分类和字典选择的语音活动检测[J]. 华中科技大学学报(自然科学版) 2016(12)
    • [18].语音拣选系统在汽车零部件首批仓库拣选业务中的应用[J]. 物流技术 2017(01)
    • [19].一种基于语音活动检测的声源定位方法[J]. 电脑知识与技术 2017(04)
    • [20].互联网时代语音业务发展的思考分析[J]. 中国新通信 2017(08)
    • [21].一种基于预测谱偏移的自适应高斯混合模型在语音转换中的应用[J]. 华东理工大学学报(自然科学版) 2017(04)
    • [22].语音中继主叫号码的限制[J]. 通讯世界 2017(18)
    • [23].在线语音直播开启直播新战场[J]. 新闻战线 2017(21)
    • [24].基于同轴的广电语音业务的实现[J]. 中国有线电视 2016(08)
    • [25].瑜伽语音冥想对大学生心理健康的积极影响[J]. 赤子(上中旬) 2014(15)
    • [26].语音感知和语音产出——二语语音习得研究梳辨[J]. 语文学刊(外语教育教学) 2015(04)
    • [27].国内外语语音能力研究论析[J]. 宿州学院学报 2015(06)
    • [28].关于语音转换实现的研究[J]. 价值工程 2015(29)
    • [29].浅析语音导览系统在博物馆中的应用[J]. 学理论 2015(32)
    • [30].语音反馈的实践改进[J]. 教学月刊小学版(综合) 2020(06)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    甚低速率语音编码器算法研究
    下载Doc文档

    猜你喜欢