论文摘要
手机端的语音短信输入,可以免去人们手工输入短信的不便,有着实际的应用需求,但是尚未得到很好的解决。因此短信语音识别成为当前语音识别的一个热点问题。短信语音有语句短,口语化强的特点,识别起来有很大的难度。短信语音识别要解决的主要问题有:手机语音库的建设,识别系统开发,识别结果置信度评价等。本文对短信语音识别问题进行了研究,建立了性能优越的短信语料库和语音库,搭建了置信度评价系统。此外,还针对分类样本不平衡问题做了初步的不平衡数据集分类问题研究。本文的研究重点为短信语音语料库的建立和置信度分类中的特征提取与特征选择,主要的工作如下:1.建立了性能优越的短信语音语料库良好的语音库和语料库的建立对于声学模型和语言模型的训练都有很大的帮助作用,对于系统测试也必不可少。本文实现了短信注音系统,根据短信语料的特性,选择了合理的语料选择算法从五十万条原始短信中,自动选择出了6000句语音学角度丰富的短信语料。在保证稀有三音子全部被选择出的前提条件下,使三音子尽量平衡。6000句三音子理论覆盖率达到93.9%,实际覆盖率达到100%。并以此建立了200人参与录音,时长超过300小时的手机语音库。2.置信度分类中的特征提取和特征选择在语音短信输入的应用中,识别结果的可靠性是一个实际要解决问题。传统的语音识别置信度方法基于各种静态特征进行分类判决,而忽略了词与周围环境之间的关系所携带的信息。本文在一个词错误率为14.02%的基线系统上,利用10维静态特征做分类,比基线系统的错误率降低了24.9%。进一步在静态特征的基础上提出了上下文特征和动态特征,它们和静态特征组合在一起的特征分类效果比静态特征提高了7.4%。但是并非所有特征都对分类效果有正面影响,过多的特征不但带来信息的冗余,还会使分类速度变慢。针对这个问题,本文将特征提取和特征选择引入到语音识别置信度的研究中,提出了用特征提取的方法降低特征维数和用特征选择的方法从原始特征中选择出一个有效的子集。实验表明本文提出的上下文和动态特征是相对重要的分类特征,并且通过特征提取和特征选择可以得到有效压缩。3.不平衡数据集分类置信度分类所采用的实验数据为语音识别过程中所产生各种特征。由于识别率较高,造成了正确样本数与错误样本数的比例接近到了8:1。针对置信度分类模型训练中,正确样本数和错误样本数不平衡的问题,作者对不平衡数据集分类问题进行了初步的研究。提出了欠采样改进的办法,在正确类样本正确分类率下降不多的前提条件下,使分类器对错误类样本的正确分类率得到了显著的提高。
论文目录
相关论文文献
- [1].用于语音识别置信度的发音特征各维度分析和子集优化[J]. 声学学报 2011(03)
- [2].基于环境特征的语音识别置信度研究[J]. 清华大学学报(自然科学版) 2009(S1)
- [3].多传感器目标识别融合模型研究[J]. 现代防御技术 2008(05)
- [4].基于专家系统的雷达识别方法[J]. 舰船电子对抗 2014(05)
- [5].复杂环境下车辆前方多车道识别方法[J]. 农业机械学报 2010(05)
- [6].基于SSD的棋子检测算法研究[J]. 长春理工大学学报(自然科学版) 2019(06)
- [7].γ指纹的特征提取及其RBF神经网络识别[J]. 物理实验 2020(06)
- [8].基于信息融合的空中红外小目标识别[J]. 光学精密工程 2009(08)
- [9].一种非组合的电磁目标快速识别算法[J]. 电讯技术 2016(05)
- [10].基于深度学习的高效火车号识别[J]. 工程科学学报 2020(11)