会议语音的混响消除及其在词汇量连续语音识别的研究

会议语音的混响消除及其在词汇量连续语音识别的研究

论文摘要

语音识别技术的应用前景是无限的。应用语音的自动理解和翻译,可以消除人类相互交往的语言障碍。随着Internet网的爆炸性扩张,电子商务的迅速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各领域带来极大的便利。随着近代计算机技术的飞速发展,大词汇量连续语音识别系统已经取得了较高的识别准确率,语料库的选择也由干净、单一的实验室环境下语料转为混杂着噪音、混响复杂环境下的语料。真实环境下的语音识别成为研究的热点。论文围绕美国加州伯克利大学ICSI研究所提供的会议语料库,分析了影响识别率的三个原因:噪音、混响、说话人重叠。通过研究,旨在应用各种算法提高ICSI会议语料库的基线识别率。论文首先对语音识别系统的结构、语音模型、语言模型进行描述,然后分析了混响信号和混响模型,陈述了消除混响的基本方法,接着描述了ICSI语料库的构造和特点,最后分别提出了三种算法来消除噪音、混响和说话人重叠并且进行了实验。对ICSI数字语料库进行识别时通过减谱法和长时减谱增强语音后,识别率由64%上升到91%。在对ICSI会议语料库进行识别时,根据上述的两种方法加上说话人检测消除说话人重叠技术,识别率提高了30%。本文结合了信号处理和语音识别两项技术,其创新性在于:通过混响模型定义,提出后混响方差估计与减谱法结合的算法以达到消除混响和噪音的双重目的;并且根据互相关系数,检测重叠说话人的主导说话人,从而对语料库进行修改,以达到消除重叠说话人语音对语音模型训练的影响。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 引言
  • 1.2 语音识别发展现状
  • 1.3 语音识别分类
  • 1.3.1 从识别的词汇量分
  • 1.3.2 从识别的对象来分
  • 1.3.3 从识别基本单元来分
  • 1.4 语音识别面临的困难
  • 1.5 本文的安排
  • 第二章 语音识别基本理论
  • 2.1 引言
  • 2.2 语音识别系统构结构和特征提取
  • 2.2.1 语音识别系统构成
  • 2.2.2 语音特征提取
  • 2.3 HMM模型基本概念
  • 2.3.1 HMM模型
  • 2.3.2 HMM中的3个基本问题及其解决方案
  • 2.4 语言模型
  • 2.5 小结
  • 第三章 混响和混响模型的定义
  • 3.1 引言
  • 3.2 混响的产生和影响
  • 3.3 混响时间和混响能量比
  • 3.4 房间混响模型
  • 3.5 混响消除或抑制方法综述
  • 3.5.1 从信源方面考虑语音去混响
  • 3.5.2 从信道方面考虑语音去混响
  • 3.5.3 从信号采集方面提高语音去混响
  • 3.5.4 从信号处理方面考虑语音去混响
  • 3.6 小结
  • 第四章 ICS语料库描述
  • 4.1 引言
  • 4.2 ICSI会议语料库环境描述
  • 4.3 会议内容和参与者
  • 4.4 数字语料库
  • 4.5 房间混响时间RT60和远近端能量比值G估计
  • 4.6 ICSI文本集
  • 4.7 影响识别率的因素
  • 4.8 小结
  • 第五章 语音去噪音和混响算法
  • 5.1 引言
  • 5.2 房间混响模型算法
  • 5.3 混响信号相关性
  • 5.4 单麦克风减谱法去噪音和混响原理
  • 5.5 最优修正对数谱幅度估计(OM-LSA,Optimally-Modified Log spectral Amplitude Estimator
  • 5.6 后混响谱方差估计(Late Reverberant Sperctral Variance Estimator)
  • 5.7 长时对数能量减谱法(LTLSS,Long Term Log Spectral Subtraction)
  • 5.8 实验和结论
  • 5.8.1 语音增强实验
  • 5.8.2 语音识别实验
  • 5.9 小结
  • 第六章 重叠语音下主导说话人检测技术
  • 6.1 引言
  • 6.2 说话人重叠描述
  • 6.3 基于互相关系数的主说话人检测方法
  • 6.4 ICSI语料库训练集重叠语音的处理
  • 6.4.1 说话人重叠统计
  • 6.4.2 互相关系数求主导说话人
  • 6.4.3 时间段合并和平滑
  • 6.3.4 修改远端语音标注文件
  • 6.4 实验和结论
  • 6.4.1 基线识别率
  • 6.4.2 通过OM-LSA估计减谱法和长时减谱后的识别结果
  • 6.4.3 话人重叠删除和主说话人检测的识别结果结果
  • 6.5 小结
  • 第七章 结论与展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].基于翻转梅尔频率倒谱系数的语音变调检测方法[J]. 计算机应用 2019(12)
    • [2].语音助手能力评估研究及趋势分析[J]. 广东通信技术 2019(12)
    • [3].语音伪造与鉴伪的发展与挑战[J]. 信息安全学报 2020(02)
    • [4].广告语中语音隐喻的使用规则研究[J]. 传播力研究 2020(03)
    • [5].阻止语音欺诈的7种方法[J]. 计算机与网络 2020(09)
    • [6].5G初期语音业务方案与优化策略[J]. 广西通信技术 2019(03)
    • [7].在线语音直播发展动因探析[J]. 视听 2020(09)
    • [8].5G语音回落4G解决方案探讨[J]. 移动通信 2019(04)
    • [9].手机智能语音助手的发展与未来[J]. 通讯世界 2019(04)
    • [10].语音营销,是新机遇,还是新泡沫?[J]. 营销界 2019(02)
    • [11].语音在少数民族口传音乐中的作用——以赫哲族为例[J]. 北极光 2019(06)
    • [12].古交语音与中古语音的比较[J]. 汉字文化 2019(13)
    • [13].手机语音助手用户体验现状及发展[J]. 内蒙古煤炭经济 2019(15)
    • [14].语音助手市场增长惊人[J]. 董事会 2019(10)
    • [15].在线语音直播的兴起与发展探析[J]. 新闻研究导刊 2018(07)
    • [16].基于噪声分类和字典选择的语音活动检测[J]. 华中科技大学学报(自然科学版) 2016(12)
    • [17].语音拣选系统在汽车零部件首批仓库拣选业务中的应用[J]. 物流技术 2017(01)
    • [18].一种基于语音活动检测的声源定位方法[J]. 电脑知识与技术 2017(04)
    • [19].互联网时代语音业务发展的思考分析[J]. 中国新通信 2017(08)
    • [20].一种基于预测谱偏移的自适应高斯混合模型在语音转换中的应用[J]. 华东理工大学学报(自然科学版) 2017(04)
    • [21].语音中继主叫号码的限制[J]. 通讯世界 2017(18)
    • [22].在线语音直播开启直播新战场[J]. 新闻战线 2017(21)
    • [23].基于同轴的广电语音业务的实现[J]. 中国有线电视 2016(08)
    • [24].瑜伽语音冥想对大学生心理健康的积极影响[J]. 赤子(上中旬) 2014(15)
    • [25].语音感知和语音产出——二语语音习得研究梳辨[J]. 语文学刊(外语教育教学) 2015(04)
    • [26].国内外语语音能力研究论析[J]. 宿州学院学报 2015(06)
    • [27].关于语音转换实现的研究[J]. 价值工程 2015(29)
    • [28].浅析语音导览系统在博物馆中的应用[J]. 学理论 2015(32)
    • [29].语音反馈的实践改进[J]. 教学月刊小学版(综合) 2020(06)
    • [30].冷,冷,冷[J]. 意林(原创版) 2019(02)

    标签:;  ;  ;  

    会议语音的混响消除及其在词汇量连续语音识别的研究
    下载Doc文档

    猜你喜欢