连续汉语普通话声调错误检测

连续汉语普通话声调错误检测

论文摘要

目前,在计算机辅助语言学习(CALL)方面的研究已经取得了不少的成绩,其中,发音评估起到了非常重要的作用。然而,在汉语普通话发音的评估方面的研究还还相知甚少,而且他们大多数都基于边界打分的(segmental goodness)的基础上的。由于汉语是声调语言,在现实的交流中发音正确非常重要,所以在汉语的CALL系统正确检测声调的错误是当务之急。在本论文中,我们提出了能够描述声调变化的基于上下文的声调模型(Context Dependent Tone Model-CDTM)模型,并通过计算最佳期望CDTM模型和最接近实际发音的CDTM模型(由实际发音通过CDTM识别得到的语音)进行比较来检测发音错误。在已有研究工作中,张丽等使用了对数后验概率(log-posterior probability)来评估声调发音的正确性。在孤立词的语料库上,他们在允许4%的错误接受率的基础上获得了90%的正确率。Si Wei使用了相同的方法,但是他们的基频通过CDF-matching的F0作为特征值来检测声调的错误。他们的自动语音识别系统与专家们的相关系数达到了0.79。但是这些工作都是使用三音子的隐马尔科夫(Hidden Markov Models-HMM)在孤立词的识别上取得的成绩。在本论文,我们致力研究连续汉语普通话的声调错误的检错,并提出了使用基于上下文的隐马尔科夫模型来进行声调建模。对于连续语音,我们建立两个CDTM序列,一个从相应的阅读文本中获得,我们称为最佳期望发音的CDTM序列,另一个序列,通过实践发音在CDTM识别得到,我们称为最接近实际发音的CDTM序列,我们比较这两个序列中相应的模型之间的相对熵(Kullback-LeiblerDivergence-KLD)来检测声调发音的好坏。在评估阶段,发音的好坏是通过期望模型序列和最接近实际发音模型序列的相应模型之间的KLD来评估的,我们通过ROC曲线事先设定一个阈值,当两个模型之间的KLD值大于实现设定的阈值,我们认为其发音有错,在ROC曲线上,我们获得相等的错误率为2.6%。

论文目录

  • 致谢
  • 中文摘要
  • ABSTRACT
  • 1 引言
  • 1.1 研究的背景
  • 1.1.1 计算机辅助语言学习的发展现状
  • 1.1.2 汉语声调模型和声调检错发展现状
  • 1.2 论文的研究动机和主要工作
  • 1.3 论文的结构组成
  • 1.4 小结
  • 2 汉语声调检测技术综述
  • 2.1 中文声调的介绍
  • 2.2 隐马尔科夫工具箱
  • 2.2.1 隐马尔科夫模型
  • 2.2.2 语音识别
  • 2.2.3 基于HTK工具箱的模型训练
  • 2.3 小结
  • 3 基于上下文的声调模型
  • 3.1 基于上下文声调模型的介绍
  • 3.2 MSD特征值
  • 3.3 基于上下文声调模型的训练
  • 3.3.1 模型细化的过程
  • 3.3.2 状态绑定
  • 3.4 最佳期望CDTM模型序列的查找
  • 3.5 实验设计与流程
  • 3.5.1 相关配置
  • 3.5.2 实验方法
  • 3.5.3 实验结果和分析
  • 3.6 小结
  • 4 声调检错
  • 4.1 声调检错框架与介绍
  • 4.2 KLD
  • 4.3 实验设计与流程
  • 4.3.1 数据库
  • 4.3.2 评估标准
  • 4.3.3 实验方法
  • 4.3.4 实验结果和分析
  • 4.4 小结
  • 5 结论
  • 5.1 对本文工作的总结
  • 5.2 对汉语普通话声调检错的展望
  • 参考文献
  • 作者简历
  • 学位论文数据集
  • 相关论文文献

    标签:;  ;  ;  ;  

    连续汉语普通话声调错误检测
    下载Doc文档

    猜你喜欢