语音识别置信度研究

语音识别置信度研究

论文摘要

手机端的语音短信输入,可以免去人们手工输入短信的不便,有着实际的应用需求,但是尚未得到很好的解决。因此短信语音识别成为当前语音识别的一个热点问题。短信语音有语句短,口语化强的特点,识别起来有很大的难度。短信语音识别要解决的主要问题有:手机语音库的建设,识别系统开发,识别结果置信度评价等。本文对短信语音识别问题进行了研究,建立了性能优越的短信语料库和语音库,搭建了置信度评价系统。此外,还针对分类样本不平衡问题做了初步的不平衡数据集分类问题研究。本文的研究重点为短信语音语料库的建立和置信度分类中的特征提取与特征选择,主要的工作如下:1.建立了性能优越的短信语音语料库良好的语音库和语料库的建立对于声学模型和语言模型的训练都有很大的帮助作用,对于系统测试也必不可少。本文实现了短信注音系统,根据短信语料的特性,选择了合理的语料选择算法从五十万条原始短信中,自动选择出了6000句语音学角度丰富的短信语料。在保证稀有三音子全部被选择出的前提条件下,使三音子尽量平衡。6000句三音子理论覆盖率达到93.9%,实际覆盖率达到100%。并以此建立了200人参与录音,时长超过300小时的手机语音库。2.置信度分类中的特征提取和特征选择在语音短信输入的应用中,识别结果的可靠性是一个实际要解决问题。传统的语音识别置信度方法基于各种静态特征进行分类判决,而忽略了词与周围环境之间的关系所携带的信息。本文在一个词错误率为14.02%的基线系统上,利用10维静态特征做分类,比基线系统的错误率降低了24.9%。进一步在静态特征的基础上提出了上下文特征和动态特征,它们和静态特征组合在一起的特征分类效果比静态特征提高了7.4%。但是并非所有特征都对分类效果有正面影响,过多的特征不但带来信息的冗余,还会使分类速度变慢。针对这个问题,本文将特征提取和特征选择引入到语音识别置信度的研究中,提出了用特征提取的方法降低特征维数和用特征选择的方法从原始特征中选择出一个有效的子集。实验表明本文提出的上下文和动态特征是相对重要的分类特征,并且通过特征提取和特征选择可以得到有效压缩。3.不平衡数据集分类置信度分类所采用的实验数据为语音识别过程中所产生各种特征。由于识别率较高,造成了正确样本数与错误样本数的比例接近到了8:1。针对置信度分类模型训练中,正确样本数和错误样本数不平衡的问题,作者对不平衡数据集分类问题进行了初步的研究。提出了欠采样改进的办法,在正确类样本正确分类率下降不多的前提条件下,使分类器对错误类样本的正确分类率得到了显著的提高。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 语音识别发展历史
  • 1.2 语音识别研究现状及发展趋势
  • 1.3 语音识别系统的鲁棒性问题
  • 1.4 语音识别置信度研究的意义
  • 1.5 本文研究工作和进展
  • 1.6 论文结构
  • 第二章 连续语音识别原理
  • 2.1 语音识别技术概述
  • 2.2 连续语音识别基本框架
  • 2.3 声学特征和声学模型
  • 2.3.1 声学特征
  • 2.3.2 声学模型
  • 2.4 语言模型
  • 2.5 解码器
  • 2.5.1 帧同步Viterbi解码
  • *堆栈解码'>2.5.2 A*堆栈解码
  • 2.5.3 解码器输出
  • 2.6 语音识别系统的性能评价
  • 2.6.1 测试数据的选择
  • 2.6.2 识别精度
  • 2.6.3 识别速度
  • 第三章 短信语音语料库的建立
  • 3.1 语料库性能要求
  • 3.2 短信注音
  • 3.2.1 短信长度调整
  • 3.2.2 错别字和标点符号的处理
  • 3.2.3 数字的注音
  • 3.2.4 包含英文短信的处理
  • 3.2.5 多音字的注音
  • 3.3 语音单元的选择和分类
  • 3.4 几种三音子选择算法
  • 3.4.1 算法一
  • 3.4.2 算法二
  • 3.4.3 算法三
  • 3.5 本文采用的算法
  • 3.6 实验结果与分析
  • 3.6.1 各种语音单元覆盖率
  • 3.6.2 三音子频率分布
  • 3.7 语音库的建立
  • 第四章 语音识别置信度评价系统
  • 4.1 语音识别中的置信度问题
  • 4.2 置信度评价方法
  • 4.3 置信度研究方法综述
  • 4.3.1 基于预测特征的置信度方法
  • 4.3.2 基于后验概率的置信度
  • 4.4 SVM分类器介绍
  • 4.5 基于预测特征融合的语音识别置信度
  • 4.6 实验结果与分析
  • 4.6.1 实验设定
  • 4.6.2 实验结果
  • 第五章 置信度中的特征提取与特征选择
  • 5.1 上下文特征与动态特征的提出
  • 5.1.1 上下文特征
  • 5.1.2 动态特征
  • 5.2 特征提取与特征选择方法介绍
  • 5.3 特征选择理论
  • 5.3.1 特征选择方法的分类
  • 5.3.2 特征选择作为搜索问题
  • 5.3.3 特征选择算法四要素
  • 5.4 主成分分析(PCA)
  • 5.5 基于SVM的递归特征消除法
  • 5.6 实验结果与分析
  • 5.6.1 实验设定
  • 5.6.2 实验评价标准
  • 5.6.3 实验系统
  • 5.6.4 实验结果
  • 5.6.5 实验结果分析
  • 第六章 不平衡数据集分类问题
  • 6.1 不平衡数据集分类简介
  • 6.1.1 问题实质探讨
  • 6.1.2 不平衡数据分类的性能评价
  • 6.2 常用的不平衡数据分类方法
  • 6.2.1 基于数据采样的方法
  • 6.2.2 分类方法
  • 6.2.3 综合方法
  • 6.3 基于欠采样技术的SVM分类
  • 6.3.1 模糊样本集修剪技术
  • 6.3.2 指导型欠采样技术
  • 6.4 随机欠采样方法实验结果
  • 第七章 总结与展望
  • 7.1 论文总结
  • 7.2 研究展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 相关论文文献

    • [1].用于语音识别置信度的发音特征各维度分析和子集优化[J]. 声学学报 2011(03)
    • [2].基于环境特征的语音识别置信度研究[J]. 清华大学学报(自然科学版) 2009(S1)
    • [3].多传感器目标识别融合模型研究[J]. 现代防御技术 2008(05)
    • [4].基于专家系统的雷达识别方法[J]. 舰船电子对抗 2014(05)
    • [5].复杂环境下车辆前方多车道识别方法[J]. 农业机械学报 2010(05)
    • [6].基于SSD的棋子检测算法研究[J]. 长春理工大学学报(自然科学版) 2019(06)
    • [7].γ指纹的特征提取及其RBF神经网络识别[J]. 物理实验 2020(06)
    • [8].基于信息融合的空中红外小目标识别[J]. 光学精密工程 2009(08)
    • [9].一种非组合的电磁目标快速识别算法[J]. 电讯技术 2016(05)
    • [10].基于深度学习的高效火车号识别[J]. 工程科学学报 2020(11)

    标签:;  ;  ;  ;  ;  ;  

    语音识别置信度研究
    下载Doc文档

    猜你喜欢