Print

汉语语言的物理特征提取及分析工具的研究与实现

论文摘要

声学特征的提取是语音识别(包括说话人识别)的关键技术之一,目的是通过对语音信号进行数字处理,将其表示成反映语音本质特征信息的参数序列。当前,包括反映人的听觉感知特性的、具有更强的鲁棒性的特征的提取,是语音识别领域的一个研究热点。近年来,国际上对语音特征提取的研究,大多是从英语出发的,而汉语与英语比,具有一些不同的特点,因此,加紧开展汉语语音特征提取方面的研究是非常有必要的。本论文对汉语语音信号的分析和特征的提取进行了一些研究,具体包括:1.设计了在汉语语音分析中常用的语谱图的Matlab显示算法。2.研究了听觉的音高感知特性和Mel频率语谱图,并设计了相应的Matlab算法。3.研究了听觉的“临界频带”理论,并为200-9500Hz频率范围内的20个临界频带设计了相应的20个FIR滤波器,以此构成一个滤波器组,来近似地模拟人耳基底膜在200-9500Hz频率范围内的频谱分析能力。4.设计了在汉语语音的音节切分中常用的短时能量特征和短时平均过零率特征的Matlab提取算法。5.研究了在说话人识别中,利用统计学对特征参数的性能进行评价的方法,并进行了相应的Matlab算法设计。6.整合以上功能,开发了工具Speechlab。7.采集大量的说话人语音样本,利用工具,评价目前在汉语说话人识别中常用的MFCC特征和LPC特征的性能,以及MFCC的各维参数对说话人识别的贡献。作者希望Speechlab工具能为汉语语音信号分析和特征提取方面的研究提供帮助。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 背景分析
  • 1.2 论文的目的和主要工作
  • 1.3 论文组织
  • 第二章 汉语语音的分析与特征提取算法设计
  • 2.1 语音信号的短时分析方法简介
  • 2.2 预处理
  • 2.3 语谱图
  • 2.4 Mel频率语谱图
  • 2.5 临界频带滤波器组
  • 2.6 短时能量
  • 2.7 短时平均过零率
  • 第三章 汉语说话人特征评价的算法设计
  • 3.1 汉语说话人特征评价的方法概述
  • 3.2 LPC特征提取
  • 3.3 MFCC特征提取
  • 3.4 F比
  • 3.5 D比
  • 第四章 Speechlab工具的设计与实现
  • 4.1 开发环境
  • 4.2 运行环境
  • 4.3 总体架构设计
  • 4.4 功能设计与实现
  • 第五章 汉语说话人特征的评价实验与分析
  • 5.1 说话人发音样本的采集
  • 5.2 MFCC特征评价实验与分析
  • 5.3 LPC特征评价实验与分析
  • 5.4 MFCC特征与LPC特征的性能比较
  • 5.5 特征组合实验与分析
  • 5.6 MFCC的各阶参数对说话人识别的贡献
  • 第六章 结论
  • 6.1 工作总结
  • 6.2 前景展望
  • 参考文献
  • 攻读学位期间的研究成果目录
  • 致谢
  • 相关论文文献

    本文来源: https://www.lw50.cn/article/c54486c7e751a69aa151a4c9.html