论文摘要
在计算机辅助语言学习CALL(Computer Assisted Language Learning)中,语音处理技术的应用越来越广泛。当今已经存在很多方法来判断和评估发音的准确性,并取得很好的结果。对于单词重音的识别,大多是通过提取传统的语音线性特征用线性判别函数来判断其重读音的位置;有时也会结合一些语音非线性特征,如梅尔倒谱系数(MFCC)、巴克倒谱等。这些方法或者无法很好的描述语音信号的混沌特征;或者无法充分逼近特征之间复杂的非线性关系。基于这些问题,本文主要研究的是在英语单词重读音节识别中,分形理论对于重音识别的应用以及应用RankNet神经网络将传统特征和分形维特征进行融合对于词重音识别的重要性。本文主要的工作包括以下几点:(1)实现了传统特征如:能量平均(EA)、基频变化率(PCR)、时长(DURATION)等特征的提取;研究了分形维理论,详细对比了两种计算分形维数的算法,计盒数法和多态覆盖法;选择较优的一种算法实现了分形维特征的提取;(2)引入感知器准则函数,实现了基于该准则函数的单一特征的重音识别实验;(3)在此基础上,建立了基于RankNet神经网络的多特征融合重音识别算法,并实现了一种自适应可变学习率和冲量的RankNet模型;(4)在Sphinx-4语音开发平台的框架下,实现了单词重音识别系统,该系统具有较好的可靠性与稳定性,封闭测试识别准确率达93%左右,开放测试识别准确率达88.09%,可以用于口语重音识别的评估。
论文目录
摘要Abstract第1章 绪论1.1 课题背景1.2 本课题研究的目的及意义1.3 国内外相关技术发展现状1.3.1 国内外语音识别技术发展现状1.3.2 英语口语中重读音节识别技术发展现状及面临问题1.4 本文主要研究内容第2章 词重音识别方法简介2.1 引言2.2 识别流程2.3 特征提取2.3.1 能量特征2.3.2 基频特征2.3.3 时长特征2.3.4 梅尔倒谱系数2.4 重读音节识别方法2.5 识别算法的评测指标2.6 本章小结第3章 语音的分形维提取方法3.1 引言3.2 语音信号的分形特性3.3 语音信号分形维度提取3.3.1 分形理论3.3.2 分形维计算方法3.3.3 语音信号分形维度计算3.4 本章小结第4章 基于RankNet的重读音节识别算法4.1 引言4.2 RankNet理论4.2.1 RankNet神经元4.2.2 RankNet网络模型4.3 基于RankNet的重读音节识别4.3.1 输入数据4.3.2 输入数据归一化4.3.3 RankNet学习算法4.3.4 RankNet重音识别算法4.4 本章小结第5章 词重音识别系统的实现5.1 引言5.2 系统实现平台5.2.1 Sphinx-4 语音开发平台5.2.2 Sphinx-4 平台的框架结构及运行机制5.2.3 系统平台的改进5.3 系统的实现方案5.3.1 改进后语音实验平台配置5.3.2 应用模块中数据分析过程5.4 本章小结第6章 实验描述与结果分析6.1 引言6.2 实验中语料标准以及参数的设定6.3 重读实验方案以及实验结果6.3.1 测试评价度量6.3.2 单个特征实验6.3.3 融合特征实验6.4 本章小结结论参考文献攻读学位期间发表的学术论文致谢
相关论文文献
标签:分形维数论文; 重读音节论文; 多态覆盖法论文; 计盒数法论文; 感知器准则函数论文; 人工神经网络论文;