基于隐马尔科夫模型的语音识别技术研究

基于隐马尔科夫模型的语音识别技术研究

论文摘要

语音识别是机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术。其根本目的是研究出一种具有听觉功能的机器,这种机器能直接接受人的语音,理解人的意图,并做出相应的反应。语音识别以语音信号为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到语言学、计算机科学、信号处理以及生理学、心理学等诸多领域,甚至还涉及到人的体态语言,其最终目标是实现人与机器进行自然语言通信。语音识别具有广阔的应用前景,已经在听写机、电话查询系统、家电控制等诸多领域获得到了充分的应用。目前说话人识别领域主流的算法是基于隐马尔科夫模型(Hidden Markov Model)。隐马尔科夫模型用隐含状态对应声学各层相对稳定的发音单元,并通过状态的驻留,转移描述发音变化。为了研究方便,隐马尔科夫模型假设连续段长分布的时间是服从几何分布,但这与真实的分布规律并不相符。本课题试采用的基于段长分布的隐马尔科夫模型更准确的描述语音信号的时间相关性。本文以HTK(HMM toolkit)工具作为语音信号处理平台,建造一个简单的基于特定人的连续汉语语音识别系统。利用该系统分别对采用不同类型的特征参数的识别效果进行比较,通过实验方式找出最合适该汉语识别系统的模型参数设定。实验发现将汉语中的声母和韵母作为基本的声学单元来建立HMM模型,将声母韵母状态数分别设为3和5,输出观察值混合高斯维数为7时,识别的准确率可以达到较好的效果,继续增加状态数和高斯维数后,识别结果没有明显提高而且使识别速度变慢。实验最后通过修改HTK源代码实现基于段长分布的隐马尔科夫模型,结果表明,改进的隐马尔科夫模型在噪音环境下能获得更好的识别效果。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 引言
  • 1.2 语音识别发展概况和面临的难点
  • 1.3 本文研究目标
  • 第2章 语音识别的基本原理
  • 2.1 语音识别的系统结构
  • 2.1.1 语音通信的层次模型
  • 2.1.2 语音识别的原理
  • 2.2 语音信号的预处理
  • 2.3 特征参数提取
  • 2.3.1 线性预测系数
  • 2.3.2 Mel频率倒谱系数
  • 2.4 主要的识别算法
  • 第3章 HMM的改进方法
  • 3.1 传统HMM
  • 3.1.1 HMM基本概念
  • 3.1.2 HMM要解决的三个问题
  • 3.2 HMM分类和结构
  • 3.2.1 HMM的分类
  • 3.2.2 HMM结构
  • 3.3 基于段长HMM
  • 3.3.1 改进模型的提出
  • 3.3.2 改进的HMM模型重估算法
  • 3.3.3 对段长HMM算法的优化
  • 第4章 汉语语音识别系统
  • 4.1 HTK简介
  • 4.2 汉语识别系统建立过程
  • 4.2.1 数据准备
  • 4.2.2 HMM的训练
  • 4.2.3 HMM的识别
  • 4.2.4 对识别结果的分析
  • 第5章 识别实验
  • 5.1 实验环境
  • 5.1.1 语音的录音
  • 5.1.2 声学模型的选择
  • 5.2 实验模型的具体参数
  • 5.3 实验比较
  • 5.3.1 LPCC参数和MFCC参数选取
  • 5.3.2 状态数与高斯混合数选取
  • 5.3.3 改进后HMM与传统HMM比较
  • 第6章 总结与展望
  • 6.1 总结
  • 6.2 工作展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表的学术论文
  • 附录A 声韵母表和右相依音节列表
  • 附录B 命令行批处理脚本
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于隐马尔科夫模型的语音识别技术研究
    下载Doc文档

    猜你喜欢