面向连续语音识别的半监督学习方法的研究

面向连续语音识别的半监督学习方法的研究

论文摘要

语音识别技术日趋成熟,但仍存在一系列难题亟待解决。其中较为突出的是:对数据的标注成本高、耗时长,想获得大量的标注数据十分困难,而另一方面,却很容易获得大量的未标注数据。这种情况下,半监督学习是一种有效的学习方法,能够充分利用所有这些数据来得到较好的训练结果。本文主要研究连续语音识别中的半监督学习方法,着眼于对声学模型的性能的改进。针对经典的F. Wessel与H. Ney方法中的句子内滤除法会带来系统性能下降这个问题,本文提出一种自学习与确认相结合的策略,可以有效地提高声学模型的性能,在仅使用100句语料(约合20分钟)作为初始训练集的情况下,系统对测试集的识别率相对平均提高了4.9%。考虑到高置信度数据分布的集中性,文中同时使用高低置信度数据来训练系统,相比于仅应用高置信度数据的方法,系统对测试集的识别率平均提高了1.4%左右。另外,文中还尝试使用信息熵来进行数据筛选。根据最大熵原理,每次选择熵最大的数据加入到训练集中,实验表明依据信息熵进行数据筛选的半监督学习方法是有效、可行的。在当今很容易获得海量未标注数据的情况下,想要充分利用未标注数据,半监督学习的确是一个很明智的选择。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究的目的和意义
  • 1.2 半监督学习方法综述
  • 1.3 国内外在该方向的研究现状及分析
  • 1.4 论文的主要内容及其组织
  • 第2章 连续语音识别系统
  • 2.1 概述
  • 2.2 HMM模型
  • 2.2.1 HMM模型的定义
  • 2.2.2 HMM模型的建立
  • 2.2.3 HMM模型的训练
  • 2.2.4 HMM模型解码算法
  • 2.3 语言模型
  • 2.3.1 统计语言模型
  • 2.3.2 语言模型评价
  • 2.4 连续语音识别算法
  • 2.5 本章小结
  • 第3章 自学习与确认相结合的半监督学习
  • 3.1 半监督学习方法的原理简介
  • 3.2 传统的半监督学习方法
  • 3.2.1 置信度原理
  • 3.2.2 结合置信度进行半监督学习
  • 3.3 自学习与确认相结合的半监督学习方法
  • 3.4 实验
  • 3.4.1 实验环境及实验数据
  • 3.4.2 几种半监督学习方法的性能比较
  • 3.4.3 结合高低置信度数据进行半监督学习
  • 3.5 本章小结
  • 第4章 基于信息熵的半监督学习
  • 4.1 信息熵
  • 4.1.1 熵的概述
  • 4.1.2 信息熵
  • 4.2 结合信息熵进行半监督学习
  • 4.3 实验
  • 4.4 本章小结
  • 结论
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].毛谦[J]. 数字通信世界 2009(11)
    • [2].励山学人——张伦博士[J]. 楚雄师范学院学报 2016(11)
    • [3].精深治学 儒雅育人[J]. 沈阳农业大学学报(社会科学版) 2017(01)
    • [4].天翔物产集团孟翔先生祝“世界华人创业楷模”颁奖典礼圆满成功[J]. 商品与质量 2011(22)
    • [5].夏启斌研究员[J]. 华南理工大学学报(自然科学版) 2017(06)
    • [6].孙佐教授[J]. 池州学院学报 2017(06)
    • [7].刘颖博士[J]. 西安邮电学院学报 2012(01)
    • [8].春华秋实,岁月有辛勤付出才美丽 桃李芬芳,人生看学生成才而快乐——哈尔滨工业大学计算机科学与技术学院苏小红教授[J]. 计算机教育 2010(03)
    • [9].原素欣——不畏艰险嵌“明珠”[J]. 河北水利 2017(08)
    • [10].商锋教授[J]. 西安邮电学院学报 2011(05)
    • [11].吴玉程 教授[J]. 太原理工大学学报(社会科学版) 2019(06)
    • [12].华工学人[J]. 华南理工大学学报(自然科学版) 2016(10)
    • [13].李勇教授[J]. 华南理工大学学报(自然科学版) 2016(11)
    • [14].华工学人[J]. 华南理工大学学报(自然科学版) 2017(02)
    • [15].学者风采[J]. 成都工业学院学报 2017(02)
    • [16].丁义超教授[J]. 成都工业学院学报 2019(04)
    • [17].“婚内财产约定”赢得101万精神赔偿[J]. 祝你幸福(知心) 2008(04)
    • [18].广东广播电视大学、广东理工职业学院·学人简介[J]. 广东广播电视大学学报 2013(03)
    • [19].德国人提出SLM概念后,她是及时跟进研究的中国学者之一[J]. 工业技术创新 2017(04)
    • [20].颜君彪教授[J]. 湖南文理学院学报(自然科学版) 2013(03)
    • [21].華工學人[J]. 华南理工大学学报(自然科学版) 2016(12)
    • [22].能源化工业十大领军人物[J]. 中国经济周刊 2008(49)
    • [23].学者风采[J]. 成都工业学院学报 2020(02)
    • [24].华工学人[J]. 华南理工大学学报(自然科学版) 2014(03)
    • [25].学者风采[J]. 中国石油大学胜利学院学报 2020(03)
    • [26].李华志教授[J]. 成都工业学院学报 2018(04)
    • [27].华工学人[J]. 华南理工大学学报(自然科学版) 2014(04)
    • [28].华工学人[J]. 华南理工大学学报(自然科学版) 2011(05)
    • [29].学者风采[J]. 成都工业学院学报 2017(03)
    • [30].何慧教授[J]. 华南理工大学学报(自然科学版) 2014(06)

    标签:;  ;  ;  ;  

    面向连续语音识别的半监督学习方法的研究
    下载Doc文档

    猜你喜欢