论文摘要
声学特征的提取是语音识别(包括说话人识别)的关键技术之一,目的是通过对语音信号进行数字处理,将其表示成反映语音本质特征信息的参数序列。当前,包括反映人的听觉感知特性的、具有更强的鲁棒性的特征的提取,是语音识别领域的一个研究热点。近年来,国际上对语音特征提取的研究,大多是从英语出发的,而汉语与英语比,具有一些不同的特点,因此,加紧开展汉语语音特征提取方面的研究是非常有必要的。本论文对汉语语音信号的分析和特征的提取进行了一些研究,具体包括:1.设计了在汉语语音分析中常用的语谱图的Matlab显示算法。2.研究了听觉的音高感知特性和Mel频率语谱图,并设计了相应的Matlab算法。3.研究了听觉的“临界频带”理论,并为200-9500Hz频率范围内的20个临界频带设计了相应的20个FIR滤波器,以此构成一个滤波器组,来近似地模拟人耳基底膜在200-9500Hz频率范围内的频谱分析能力。4.设计了在汉语语音的音节切分中常用的短时能量特征和短时平均过零率特征的Matlab提取算法。5.研究了在说话人识别中,利用统计学对特征参数的性能进行评价的方法,并进行了相应的Matlab算法设计。6.整合以上功能,开发了工具Speechlab。7.采集大量的说话人语音样本,利用工具,评价目前在汉语说话人识别中常用的MFCC特征和LPC特征的性能,以及MFCC的各维参数对说话人识别的贡献。作者希望Speechlab工具能为汉语语音信号分析和特征提取方面的研究提供帮助。
论文目录
相关论文文献
标签:汉语语音识别论文; 频率语谱图论文; 临界频带滤波器组论文; 说话人特征评价论文;