基于FPGA的说话人识别系统的设计与实现

基于FPGA的说话人识别系统的设计与实现

论文摘要

说话人识别作为一种生物识别技术,能够根据测试语音来辨别说话者的身份。在实际应用中,说话人识别技术以其独特的方便性、经济性等优势受到世人的关注,在信息安全和身份鉴别领域都有着广泛的应用前景。目前,针对说话人识别系统的研究主要集中在算法的鲁棒性和实现平台上。MFCC(Mel Frequency Cepstrum Coefficient)利用了人耳听觉原理和倒谱的解相关特性,具有对信道失真的补偿能力,因而被广泛的应用于语音相关的识别任务中。基于矢量量化的识别算法具有较高的鲁棒性,算法相对简单,是文本相关识别的主流算法之一。当前已有的说话人识别系统大都基于计算机软件或者以DSP(Digital Signal Processor)为核心平台。随着数据库的不断增大和算法复杂度的提升,系统的实时性等要求将面临着巨大的挑战。本文重点研究算法的实现平台,从而有效地解决了系统实时性问题。本文针对实时性问题提出了一种以FPGA(Field Programmable Gate Array)为硬件平台的解决方案。该方案以MFCC为语音特征,采用了基于矢量量化的说话人识别算法。系统主要包括语音信号采集、端点检测、特征提取、码本训练和识别判断5个部分。语音采集模块通过I2C总线完成了对WM8731语音编解码芯片的控制;端点检测模块设计并实现了基于短时能量和短时过零率的双门限算法;特征提取模块完成了MFCC系数的提取,设计并实现了按时间抽取基2的FFTIP核和以2为底的取对数IP核;通过LBG算法完成了码本的训练;识别判断模块实现了基于平方误差欧氏距离测度的矢量量化识别算法。系统的硬件实现采用Verilog HDL语言,在设计过程中运用了乒乓操作、流水线设计和模块复用等手段,充分发挥了FPGA高速、并行运算的优势。最后,在友晶科技公司的DE2-35开发板上进行调试、验证。经测试证明,该系统完成了文本相关的说话人识别系统的基本功能。在实验室条件下,当系统时钟为50MHz时,完成一次4码本系统的识别耗时15.932ms;12码本系统的识别率为93.3%。该设计提高了系统的识别速度,是一种解决实时性问题的有效方案。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.2.1 特征参数的选择
  • 1.2.2 识别模型的选择
  • 1.2.3 实际应用
  • 1.3 研究意义
  • 1.4 本文主要研究内容
  • 第2章 说话人识别理论基础
  • 2.1 预处理
  • 2.1.1 语音采集与量化
  • 2.1.2 预加重
  • 2.1.3 分帧和加窗
  • 2.1.4 端点检测
  • 2.2 说话人识别特征的选取
  • 2.2.1 Mel倒谱系数
  • 2.2.2 快速傅里叶变换
  • 2.3 基于VQ的说话人识别
  • 2.3.1 矢量量化原理
  • 2.3.2 最佳码本设计
  • 2.3.3 LBG算法
  • 2.3.4 识别过程
  • 2.4 本章小结
  • 第3章 说话人识别系统总体设计
  • 3.1 功能概述
  • 3.2 系统整体架构
  • 3.3 系统硬件平台
  • 3.4 功能模块分析
  • 3.4.1 信息采集模块
  • 3.4.2 算法实现模块
  • 3.4.3 控制与显示模块
  • 3.4.4 浮点运算模块
  • 3.5 本章小结
  • 第4章 说话人识别系统的FPGA实现
  • 4.1 语音采集模块
  • 4.1.1 WM8731控制单元
  • 4.1.2 格式转换单元
  • 4.2 端点检测模块
  • 4.2.1 预加重单元
  • 4.2.2 数据转换单元
  • 4.2.3 分帧单元
  • 4.2.4 能量和过零率计算单元
  • 4.2.5 检测单元
  • 4.2.6 性能测试
  • 4.3 特征提取模块
  • 4.3.1 分帧和加窗
  • 4.3.2 FFT单元
  • 4.3.3 三角滤波单元
  • 4.3.4 取对数单元
  • 4.3.5 DCT单元
  • 4.3.6 性能测试
  • 4.4 VQ识别模块
  • 4.5 本章小结
  • 第5章 系统测试
  • 5.1 软件测试
  • 5.1.1 MFCC阶数
  • 5.1.2 语音数据长度
  • 5.2 硬件测试
  • 5.2.1 码本训练
  • 5.2.2 系统配置与下载
  • 5.2.3 性能测试
  • 5.3 本章小结
  • 第6章 结束语
  • 6.1 工作总结
  • 6.2 工作展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].不同言语风格对法庭说话人识别的影响[J]. 中国刑警学院学报 2020(03)
    • [2].细菌趋药性算法在说话人识别中的应用[J]. 宿州学院学报 2017(11)
    • [3].基于修正Fukunaga-Koontz变换的说话人识别方法[J]. 电子器件 2018(04)
    • [4].说话人识别中基于深度信念网络的超向量降维的研究[J]. 电脑知识与技术 2017(22)
    • [5].基于Mahalanobis距离的说话人识别模型研究[J]. 中国语音学报 2016(00)
    • [6].基于自适应同源方差控制的法庭自动说话人识别[J]. 应用科学学报 2014(06)
    • [7].一种低信噪比下的说话人识别算法研究[J]. 计算机应用与软件 2014(12)
    • [8].基于元音共振峰特征的法庭说话人识别[J]. 中国刑警学院学报 2014(02)
    • [9].应用似然比框架的法庭说话人识别[J]. 数据采集与处理 2013(02)
    • [10].基于判别邻域嵌入算法的说话人识别[J]. 电子与信息学报 2019(07)
    • [11].深浅层特征及模型融合的说话人识别[J]. 声学学报 2018(02)
    • [12].基于AutoEncoder DBN-VQ的说话人识别系统[J]. 计算机技术与发展 2018(02)
    • [13].基于分层识别的快速说话人识别研究[J]. 计算机工程与科学 2018(07)
    • [14].特征音方法在说话人识别中的应用[J]. 计算机系统应用 2013(08)
    • [15].自组织特征映射神经网络在说话人识别中的应用[J]. 科技信息 2009(01)
    • [16].基于聚类分析的说话人识别研究[J]. 仪器仪表用户 2008(01)
    • [17].弯折滤波器在说话人识别的鲁棒特征提取中的应用[J]. 计算机系统应用 2017(12)
    • [18].说话人识别算法鲁棒性研究[J]. 南京工程学院学报(自然科学版) 2017(03)
    • [19].反蓄意模仿说话人识别系统中特征参数提取的研究[J]. 微型机与应用 2016(12)
    • [20].基于说话人识别的门禁系统的设计[J]. 才智 2012(12)
    • [21].与文本无关说话人识别特征提取的改进[J]. 电声技术 2008(11)
    • [22].面向说话人识别的甘肃临夏少数民族方言语音库的建设[J]. 兰州文理学院学报(自然科学版) 2019(06)
    • [23].基于压缩感知的鲁棒性说话人识别参数研究[J]. 计算机技术与发展 2016(03)
    • [24].基于组合特征参数的说话人识别系统设计[J]. 信息与电脑(理论版) 2014(20)
    • [25].基于小波包分解的抗噪说话人识别特征参数[J]. 通信技术 2010(12)
    • [26].基于具有深度门的多模态长短期记忆网络的说话人识别[J]. 激光与光电子学进展 2019(03)
    • [27].说话人识别中的分数域语速归一化[J]. 清华大学学报(自然科学版) 2018(04)
    • [28].基于因子分析概率统计模型的说话人识别[J]. 安阳师范学院学报 2017(05)
    • [29].说话人识别技术及其在工厂自动控制系统中的应用[J]. 企业技术开发 2015(08)
    • [30].与文本无关说话人识别[J]. 计算机与数字工程 2014(02)

    标签:;  ;  ;  

    基于FPGA的说话人识别系统的设计与实现
    下载Doc文档

    猜你喜欢