论文摘要
声纹密码识别是文本相关的话者识别技术在日常生活中的一个具体应用。同时关注人的个性声音特征和语音内容信息的双重特点使得声纹密码识别成为有效的个人身份认证方式。然而在实际应用中,传统的声纹密码识别技术仍然受到了来自环境干扰、密码泄露、数据不足等多方面问题的挑战。如何能够化解这些问题的影响、提升声纹密码识别的性能,是本文重点关注的方面。传统的识别技术能够很好的辨识不同内容的语句,因此本文的声纹密码识别任务着重于研究极端的密码泄露问题(冒认和注册使用同样的语音内容)。针对以上在实际应用中将会面临到的种种困难,本文从多个方面展开研究,以提升声纹密码识别的可靠性。鲁棒性的活动语音检测以及特征参数提取,是声纹密码甚至是整个语音识别中的关键问题之一。本文在活动语音检测算法中提出了能量与模型参数相结合的端点检测算法,通过准确判定人声语音片段端点,得到更加有效的人声特征参数,相比基线系统,等错误率可以降低4.4%;另一方面提出基于声学特征的频率选择方法,降低了同样语音文本内容带来的不同的人声音区分度不高的影响,相对于基线系统,等错误率可以降低27.9%。这些新方法的提出较好的提升了前端特征的鲁棒性。针对声纹密码中文本内容的时序特性,本文引入帧间相关性概念,进一步提出N-gram的最近邻方法,很好地提升了系统识别率,等错误率相对于未采用N-gram方法的基线系统可以降低7.7%。本实验也从另一个角度验证了音素在声纹密码识别中的重要性。针对声纹密码的训练和测试语音数据长度很短的问题,本文提出了隐马尔科夫-通用背景模型算法。算法使用大量其他人数据先建立话者无关的声韵母HMMs作为通用背景模型,再根据最大后验概率准则,以通用背景模型为基础使用训练语音自适应获得话者模型。该算法一定程度上解决了训练数据不足的问题,等错误率为6.57%,表现出了较好的性能。进一步结合第三章提出的特征频率选择方法,等错误率还可以降低31.3%。
论文目录
摘要Abstract第1章 绪论1.1 背景1.2 声纹密码识别概述1.3 声纹密码识别的现状1.4 声纹密码识别的应用1.5 数据库1.6 性能评价指标1.7 影响因素1.8 本文安排第2章 基线系统及任务描述2.1 特征参数提取2.1.1 概述2.1.2 MFCC 特征2.1.3 其它前端特征处理2.1.4 其它特征2.2 动态时间规整算法2.3 高斯混合模型算法2.3.1 GMM-UBM 流程简介2.3.2 UBM2.3.3 MAP 自适应2.3.4 得分计算2.3.5 门限的划定2.4 声纹密码识别任务2.5 本章小结第3章 前端鲁棒性特征3.1 结合模型和能量的端点检测3.1.1 基于能量的端点检测3.1.2 基于高斯混合模型的端点检测3.1.3 能量和GMM 结合的端点检测3.1.4 数据库和基线系统3.1.5 实验结果与分析3.1.6 总结与展望3.2 基于声学特征的频率选择3.2.1 人类语音的生成3.2.2 以声学特征为前提的频率选择3.2.3 实验结果与分析3.2.4 总结与展望3.3 本章小结第4章 帧间相关性识别4.1 最近邻法4.2 N 阶的最近邻法4.3 数据准备4.4 系统描述4.4.1 特征提取4.4.2 系统介绍4.5 实验结果及分析4.6 总结与讨论4.7 本章小结第5章 HMM-UBM 声纹密码识别5.1 HMM5.2 声韵母HMMs5.2.1 通用背景模型5.2.2 话者无关声韵母HMMs5.2.3 话者模型的自适应5.2.4 测试得分的计算5.3 任务准备5.3.1 数据库及评价方法5.3.2 特征参数提取5.3.3 系统描述5.4 实验结果与分析5.5 总结与展望5.6 本章小结第6章 结束语6.1 本论文工作总结6.2 展望参考文献致谢在读期间发表的学术论文和研究经历已发表论文研究经历
相关论文文献
标签:声纹密码论文; 端点检测论文; 频率选择论文; 帧间相关性论文; 隐马尔科夫模型论文; 通用背景模型论文;