论文摘要
近年来,语音识别中的关键词检出技术的研究取得了很大的进展,并且应用在电话信道的条件下。然而在实际应用中,实验室“成功”的检出系统在鲁棒性、灵活性和自适应能力上还远远不能满足实际的需求,这一点在非特定人系统中体现突出。其原因在于说话人或者环境的改变都会给系统性能带来显著影响;当遇到特殊口音说话人,或者环境有一定的噪声时,系统的误识率会明显增加。针对上述问题,本文对与说话人相关的干扰因素进行了鲁棒性分析,并对如何提高系统的自适应能力进行了研究。 本文通过对模型参数自适应,说话人归一化和说话人聚类三方面对说话人自适应技术进行了讨论。在模型参数自适应方面介绍了目前使用较为广泛的MAP和MLLR自适应技术,并在此基础上研究了另外两种方法:Eigenvoice自适应和SMAP自适应。由于它们有着各自的优缺点,适合应用于各种实际情况下,因此本文成功地结合了这几种方法的优点,使用在电话信道下的关键词检出系统中。实验结果表明对新说话人在自适应数据为5句的时候平均误识率下降了6.3%;自适应数据为30句的时候,平均误识率下降了32.6%。在说话人聚类方面系统还使用了基于坐标轴的说话人聚类技术,与传统的方法(如基于GMM/HMM模型进行聚类)相比,这种方法的优点是对新说话人只需要较少的语料就可以确定其所属类。在说话人归一化方面介绍了声道长度归一化和倒谱均值归一化。在系统实现的过程中,文中将上面提到的三种说话人自适应技术有机地结合起来,构建了稳定的自适应模块;另外应用了前端语音增强与后续补偿相融合的抗噪方法增强了关键词检出系统的稳健性,实验表明这种方法尤其在低信噪比的情况下效果较好。最后给出了本文的结论和下一步的工作展望。
论文目录
相关论文文献
- [1].基于说话人的音频分割与聚类[J]. 心智与计算 2010(02)
- [2].基于变分贝叶斯改进的说话人聚类算法[J]. 数据采集与处理 2017(01)
- [3].基于说话人辨识的自上而下听觉显著性注意模型[J]. 计算机系统应用 2017(07)
- [4].说话人用意的认知加工机制:基于误解分析的证据[J]. 外语教学 2016(04)
- [5].“权威度”视角下终助词「ね」的附加考察[J]. 散文百家(理论) 2020(09)
- [6].润泽有效的课堂,从引导学生学会倾听开始[J]. 快乐阅读 2016(24)
- [7].那些有故事的“说话人”[J]. 长江丛刊 2017(01)
- [8].汉日位移动词比较研究[J]. 唐山文学 2017(02)
- [9].简约而不简单的英语实用口语[J]. 初中生辅导 2016(36)
- [10].临时性词汇及其语用功能探析[J]. 青年文学家 2017(09)
- [11].说话人意义的形成机制及其功能——“语言与人”系列研究(1)[J]. 外语学刊 2013(06)
- [12].论词层级上说话人意义的形成因素[J]. 外语教学 2013(06)
- [13].基于卷积长短期记忆网络的说话人辨识[J]. 信息通信 2020(08)
- [14].说话人聚类的初始类生成方法[J]. 计算机工程与应用 2017(03)
- [15].说话人视角下“来”的参照点问题再认识[J]. 语言教学与研究 2017(02)
- [16].基于改进的深度神经网络的说话人辨认研究[J]. 电子器件 2017(05)
- [17].基于语速差异的新闻发布会中首要说话人检测[J]. 计算机工程与应用 2015(04)
- [18].一种多说话人角色聚类方法[J]. 华南理工大学学报(自然科学版) 2015(01)
- [19].基于深层说话人矢量的说话人检索[J]. 华中科技大学学报(自然科学版) 2015(07)
- [20].论说话人交际策略选择的影响因素[J]. 青年文学家 2014(27)
- [21].汉语语音合成中说话人自适应的时长优化[J]. 清华大学学报(自然科学版) 2013(11)
- [22].基于话者无关模型的说话人转换方法[J]. 模式识别与人工智能 2013(03)
- [23].基于辨别性深度信念网络的说话人分割[J]. 清华大学学报(自然科学版) 2013(06)
- [24].说话人分割聚类研究进展[J]. 信号处理 2013(09)
- [25].新闻故事中的关键说话人发现方法[J]. 计算机工程与设计 2012(06)
- [26].一种基于性别的说话人索引算法[J]. 计算机工程与科学 2012(06)
- [27].基于NIST评测的说话人分类及定位技术研究[J]. 电子与信息学报 2011(05)
- [28].说话人意义及其结构的研究维度——语言主观意义研究(一)[J]. 外语教学 2011(05)
- [29].反讽话语说话人的意向及其常规推理[J]. 河北理工大学学报(社会科学版) 2010(02)
- [30].用于说话人辨识的评分规整[J]. 计算机工程与应用 2010(12)