基于RankNet的英语重读音节识别

基于RankNet的英语重读音节识别

论文摘要

在计算机辅助语言学习CALL(Computer Assisted Language Learning)中,语音处理技术的应用越来越广泛。当今已经存在很多方法来判断和评估发音的准确性,并取得很好的结果。对于单词重音的识别,大多是通过提取传统的语音线性特征用线性判别函数来判断其重读音的位置;有时也会结合一些语音非线性特征,如梅尔倒谱系数(MFCC)、巴克倒谱等。这些方法或者无法很好的描述语音信号的混沌特征;或者无法充分逼近特征之间复杂的非线性关系。基于这些问题,本文主要研究的是在英语单词重读音节识别中,分形理论对于重音识别的应用以及应用RankNet神经网络将传统特征和分形维特征进行融合对于词重音识别的重要性。本文主要的工作包括以下几点:(1)实现了传统特征如:能量平均(EA)、基频变化率(PCR)、时长(DURATION)等特征的提取;研究了分形维理论,详细对比了两种计算分形维数的算法,计盒数法和多态覆盖法;选择较优的一种算法实现了分形维特征的提取;(2)引入感知器准则函数,实现了基于该准则函数的单一特征的重音识别实验;(3)在此基础上,建立了基于RankNet神经网络的多特征融合重音识别算法,并实现了一种自适应可变学习率和冲量的RankNet模型;(4)在Sphinx-4语音开发平台的框架下,实现了单词重音识别系统,该系统具有较好的可靠性与稳定性,封闭测试识别准确率达93%左右,开放测试识别准确率达88.09%,可以用于口语重音识别的评估。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 本课题研究的目的及意义
  • 1.3 国内外相关技术发展现状
  • 1.3.1 国内外语音识别技术发展现状
  • 1.3.2 英语口语中重读音节识别技术发展现状及面临问题
  • 1.4 本文主要研究内容
  • 第2章 词重音识别方法简介
  • 2.1 引言
  • 2.2 识别流程
  • 2.3 特征提取
  • 2.3.1 能量特征
  • 2.3.2 基频特征
  • 2.3.3 时长特征
  • 2.3.4 梅尔倒谱系数
  • 2.4 重读音节识别方法
  • 2.5 识别算法的评测指标
  • 2.6 本章小结
  • 第3章 语音的分形维提取方法
  • 3.1 引言
  • 3.2 语音信号的分形特性
  • 3.3 语音信号分形维度提取
  • 3.3.1 分形理论
  • 3.3.2 分形维计算方法
  • 3.3.3 语音信号分形维度计算
  • 3.4 本章小结
  • 第4章 基于RankNet的重读音节识别算法
  • 4.1 引言
  • 4.2 RankNet理论
  • 4.2.1 RankNet神经元
  • 4.2.2 RankNet网络模型
  • 4.3 基于RankNet的重读音节识别
  • 4.3.1 输入数据
  • 4.3.2 输入数据归一化
  • 4.3.3 RankNet学习算法
  • 4.3.4 RankNet重音识别算法
  • 4.4 本章小结
  • 第5章 词重音识别系统的实现
  • 5.1 引言
  • 5.2 系统实现平台
  • 5.2.1 Sphinx-4 语音开发平台
  • 5.2.2 Sphinx-4 平台的框架结构及运行机制
  • 5.2.3 系统平台的改进
  • 5.3 系统的实现方案
  • 5.3.1 改进后语音实验平台配置
  • 5.3.2 应用模块中数据分析过程
  • 5.4 本章小结
  • 第6章 实验描述与结果分析
  • 6.1 引言
  • 6.2 实验中语料标准以及参数的设定
  • 6.3 重读实验方案以及实验结果
  • 6.3.1 测试评价度量
  • 6.3.2 单个特征实验
  • 6.3.3 融合特征实验
  • 6.4 本章小结
  • 结论
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于RankNet的英语重读音节识别
    下载Doc文档

    猜你喜欢