基于文本无关的说话人识别技术研究

基于文本无关的说话人识别技术研究

论文摘要

本文的工作是围绕构建一个文本无关的说话人识别系统展开的。主要研究语音的预处理、特征提取、说话人模型建立以及判决策略。并实现了基于矢量量化(VectorQuantization,VQ)和高斯混合模型(Gaussian Mixture Model,GMM)的说话人识别系统。本文的工作主要有以下几方面:在语音信号预处理方面,对语音信号进行8kHz的采样,16bit量化,然后进行预加重、分帧处理、加汉明窗。在特征提取方面,本文提取了语音信号的线性预测系数(LPC)、线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC),并在GMM系统下比较它们的优劣,实验结果表明:MFCC最优,LPCC次之,LPC最差。在识别模型方面,本文主要介绍VQ模型、隐马尔可夫模型(Hidden Markov Model,HMM)和GMM模型。并对VQ和GMM进行了测试,分别进行了说话人辨认和说话人确认实验。实验结果表明:无论是说话人辨认还是说话人确认,GMM模型的识别性能要优于VQ。针对GMM模型进行着重研究,研究了高斯混合模型的阶数对系统识别率的影响,分析了阶数过大或过小对系统的负面影响,并结合实际情况进行了选择;提出在EM算法的迭代过程中设置协方差阈值,并对不同阈值条件下的识别率进行实验对比,证明了将协方差阈值设置为0.1的普遍性和可行性;针对一般初始化参数方法提出了分裂法和k均值聚类相结合的方法,实验证明改进后的方法能有效提高识别率。最后对本文工作进行了总结,同时对未来的研究工作进行了展望。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 背景及意义
  • 1.2 应用领域
  • 1.3 说话人识别技术的发展与现状
  • 1.4 说话人识别技术研究重点及难点
  • 1.5 研究工作概述与安排
  • 1.5.1 工作内容
  • 1.5.2 论文的组织结构
  • 2 说话人识别的基本理论
  • 2.1 引言
  • 2.2 说话人识别的分类
  • 2.3 说话人识别原理与系统结构
  • 2.4 说话人识别中的识别方法
  • 2.4.1 模板匹配法
  • 2.4.2 统计概率模型法
  • 2.4.3 人工神经网络
  • 2.4.4 支持向量机
  • 2.5 性能评价
  • 2.6 WAV声音文件格式剖析
  • 2.6.1 RIFF文件与WAV文件
  • 2.6.2 WAV文件头
  • 2.7 小结
  • 3 语音信号预处理及相关技术
  • 3.1 引言
  • 3.2 语音信号的数字化
  • 3.3 预加重
  • 3.4 分帧
  • 3.5 加窗
  • 3.6 语音信号的时域分析
  • 3.6.1 短时能量
  • 3.6.2 短时平均过零率
  • 3.6.3 短时自相关函数
  • 3.7 端点检测
  • 3.7.1 其于短时能量或短时平均幅度的检测方法
  • 3.7.2 其于短时能量和短时平均过零率的检测方法
  • 3.7.3 频带方差检测法
  • 3.8 小结
  • 4 语音信号的特征参数提取
  • 4.1 引言
  • 4.2 语音信号的线性预测分析
  • 4.2.1 线性预测的基本原理
  • 4.3 线性预测系数的求取
  • 4.3.1 自相关法
  • 4.3.2 LPC模型阶数的确定
  • 4.4 线性预测倒谱系数的求取
  • 4.5 MFCC参数原理与提取
  • 4.5.1 MFCC参数的提取过程
  • 4.5.2 MFCC参数的优点
  • 4.6 小结
  • 5 说话人识别的模型
  • 5.1 引言
  • 5.2 矢量量化方法
  • 5.2.1 矢量量化的基本原理
  • 5.2.2 矢量量化的关键问题
  • 5.2.3 矢量的失真描述
  • 5.2.4 VQ在说话人识别中的应用
  • 5.2.5 矢量量化中的码本设计
  • 5.3 隐马尔可夫模型方法
  • 5.3.1 HMM基本思想
  • 5.3.2 HMM定义
  • 5.3.3 HMM的结构
  • 5.3.4 HMM的类型
  • 5.3.5 HMM的三个基本问题
  • 5.3.6 HMM在说话人识别中的应用
  • 5.4 高斯混合模型方法
  • 5.4.1 GMM基本概念
  • 5.4.2 GMM的训练
  • 5.4.3 GMM的识别算法
  • 5.4.4 GMM在说话人识别中的应用
  • 5.5 小结
  • 6 说话人识别系统的实现和实验数据
  • 6.1 引言
  • 6.2 说话人识别系统说明
  • 6.2.1 系统开发和运行环境
  • 6.2.2 系统主要功能介绍
  • 6.2.3 系统模块介绍
  • 6.3 基于GMM模型的说话人识别系统的性能研究
  • 6.3.1 语音信号的预处理
  • 6.3.2 数据采集
  • 6.3.3 语音库构成
  • 6.3.4 说话人辨认实验结果与分析
  • 6.3.5 说话人确认实验结果与分析
  • 6.4 基于VQ的说话人识别系统的性能研究
  • 6.4.1 说话人辨认实验结果与分析
  • 7 总结与展望
  • 7.1 本文工作总结
  • 7.2 展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].基于说话人的音频分割与聚类[J]. 心智与计算 2010(02)
    • [2].基于变分贝叶斯改进的说话人聚类算法[J]. 数据采集与处理 2017(01)
    • [3].基于说话人辨识的自上而下听觉显著性注意模型[J]. 计算机系统应用 2017(07)
    • [4].说话人用意的认知加工机制:基于误解分析的证据[J]. 外语教学 2016(04)
    • [5].“权威度”视角下终助词「ね」的附加考察[J]. 散文百家(理论) 2020(09)
    • [6].润泽有效的课堂,从引导学生学会倾听开始[J]. 快乐阅读 2016(24)
    • [7].那些有故事的“说话人”[J]. 长江丛刊 2017(01)
    • [8].汉日位移动词比较研究[J]. 唐山文学 2017(02)
    • [9].简约而不简单的英语实用口语[J]. 初中生辅导 2016(36)
    • [10].临时性词汇及其语用功能探析[J]. 青年文学家 2017(09)
    • [11].说话人意义的形成机制及其功能——“语言与人”系列研究(1)[J]. 外语学刊 2013(06)
    • [12].论词层级上说话人意义的形成因素[J]. 外语教学 2013(06)
    • [13].基于卷积长短期记忆网络的说话人辨识[J]. 信息通信 2020(08)
    • [14].说话人聚类的初始类生成方法[J]. 计算机工程与应用 2017(03)
    • [15].说话人视角下“来”的参照点问题再认识[J]. 语言教学与研究 2017(02)
    • [16].基于改进的深度神经网络的说话人辨认研究[J]. 电子器件 2017(05)
    • [17].基于语速差异的新闻发布会中首要说话人检测[J]. 计算机工程与应用 2015(04)
    • [18].一种多说话人角色聚类方法[J]. 华南理工大学学报(自然科学版) 2015(01)
    • [19].基于深层说话人矢量的说话人检索[J]. 华中科技大学学报(自然科学版) 2015(07)
    • [20].论说话人交际策略选择的影响因素[J]. 青年文学家 2014(27)
    • [21].汉语语音合成中说话人自适应的时长优化[J]. 清华大学学报(自然科学版) 2013(11)
    • [22].基于话者无关模型的说话人转换方法[J]. 模式识别与人工智能 2013(03)
    • [23].基于辨别性深度信念网络的说话人分割[J]. 清华大学学报(自然科学版) 2013(06)
    • [24].说话人分割聚类研究进展[J]. 信号处理 2013(09)
    • [25].新闻故事中的关键说话人发现方法[J]. 计算机工程与设计 2012(06)
    • [26].一种基于性别的说话人索引算法[J]. 计算机工程与科学 2012(06)
    • [27].基于NIST评测的说话人分类及定位技术研究[J]. 电子与信息学报 2011(05)
    • [28].说话人意义及其结构的研究维度——语言主观意义研究(一)[J]. 外语教学 2011(05)
    • [29].反讽话语说话人的意向及其常规推理[J]. 河北理工大学学报(社会科学版) 2010(02)
    • [30].用于说话人辨识的评分规整[J]. 计算机工程与应用 2010(12)

    标签:;  ;  ;  ;  

    基于文本无关的说话人识别技术研究
    下载Doc文档

    猜你喜欢