论文摘要
语音识别是机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术。其根本目的是研究出一种具有听觉功能的机器,这种机器能直接接受人的语音,理解人的意图,并做出相应的反应。语音识别以语音信号为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到语言学、计算机科学、信号处理以及生理学、心理学等诸多领域,甚至还涉及到人的体态语言,其最终目标是实现人与机器进行自然语言通信。语音识别具有广阔的应用前景,已经在听写机、电话查询系统、家电控制等诸多领域获得到了充分的应用。目前说话人识别领域主流的算法是基于隐马尔科夫模型(Hidden Markov Model)。隐马尔科夫模型用隐含状态对应声学各层相对稳定的发音单元,并通过状态的驻留,转移描述发音变化。为了研究方便,隐马尔科夫模型假设连续段长分布的时间是服从几何分布,但这与真实的分布规律并不相符。本课题试采用的基于段长分布的隐马尔科夫模型更准确的描述语音信号的时间相关性。本文以HTK(HMM toolkit)工具作为语音信号处理平台,建造一个简单的基于特定人的连续汉语语音识别系统。利用该系统分别对采用不同类型的特征参数的识别效果进行比较,通过实验方式找出最合适该汉语识别系统的模型参数设定。实验发现将汉语中的声母和韵母作为基本的声学单元来建立HMM模型,将声母韵母状态数分别设为3和5,输出观察值混合高斯维数为7时,识别的准确率可以达到较好的效果,继续增加状态数和高斯维数后,识别结果没有明显提高而且使识别速度变慢。实验最后通过修改HTK源代码实现基于段长分布的隐马尔科夫模型,结果表明,改进的隐马尔科夫模型在噪音环境下能获得更好的识别效果。
论文目录
相关论文文献
标签:语音识别论文; 特征提取论文; 隐马尔科夫模型论文; 段长分布的隐马尔可夫模型论文;