英语作为第二语言的多媒体语音数据库设计制作及初步测试

英语作为第二语言的多媒体语音数据库设计制作及初步测试

论文摘要

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,近年来,计算机语音识别的应用有了长足的进展,基于英语的特殊地位,世界上对于英语作为第一语言的语音数据库的设计和制作已经很多。但由于英语的日益普及,以英语作为第二语言的人们越来越多,因此建立一个以英语作为第二语言的语音数据库是很有必要的。不同的国家,有不同的语言,其发音都有各自的特点,从而影响了作为第二语言的英语发音也出现了不同的特色。我们这里主要考虑在中国地区,设计与制作以英语作为第二语言的语音数据库,并对该数据库在构建的HTK语音识别系统中进行了一系列的测试。本文所做工作及创新有以下:1、在Linux环境下,构建了HTK语音识别系统。2、我们对特征参数做了一些研究改进:在识别系统中采用能够反映人对语音的感知特征的美尔频率倒谱系数(MFCC)作为特征参数,将语音信号的动态特征(瞬变特征)也加以考虑,实验证明这种增加混合特征参数的方法,能使系统的识别率有显著的提高。比较了各种参数的识别率,得到了识别效果最佳时的特征参数。3、在模型训练时,采用了隐马尔可夫模型,实验测试了不同的状态数,得到了为10将达到最好的识别效果。4、对语音数据库进行了设计、制作及训练模型过程,实验测试(参数取前面实验的结论)标准语音库的数据(采用AVICAR现有的数据库)和收集的语音库数据,进行了比较。发现收集的语音数据的识别率大大低于标准语音数据的识别率,得出收集不同地域语音数据库重要性的结论。分析了识别率低的原因;然后对收集的语音库中的数据根据不同的地域进行相互比较,总结识别率差异的原因,为设计制作语音库提供了借鉴的经验。5、对训练的模型进行了改进:将TIDIGIT中的中国人语音数据挑选出来,加入一次、两次、三次到AVICAR中的数据中一起训练模型,再对进行识别的测试比较,分析结果得到,识别率有所提高,由此可见,利用针对地域性强的模型进行语音识别,将大大提高识别效果。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 语音识别技术的研究历程
  • 1.1.1 语音识别技术的前期研究
  • 1.1.2 语音识别技术的中期研究
  • 1.1.3 语音识别技术的研究现状
  • 1.2 语音识别的应用领域
  • 1.3 建立数据库的意义
  • 1.4 本文所做工作及章节安排
  • 1.4.1 本文所做的主要工作
  • 1.4.2 本文章节的主要安排
  • 第2章 语音识别系统的分类及预处理
  • 2.1 语音识别系统的分类
  • 2.2 语音识别系统的基本结构
  • 2.3 语音识别系统的预处理
  • 2.3.1 语音采样
  • 2.3.2 预加重
  • 2.3.3 加窗
  • 2.3.4 短时能量
  • 2.3.5 短时过零率
  • 2.3.6 端点检测
  • 2.4 本章小结
  • 第3章 语音识别特征提取及改进
  • 3.1 语音识别的特征提取
  • 3.2 线性预测系数(LPC)
  • 3.3 线性预测倒谱系数(LPCC)
  • 3.4 美尔频标倒谱系数(MFCC)及改进
  • 3.4.1 美尔频标倒谱系数(MFCC)
  • 3.4.2 ΔMFCC和ΔΔMFCC
  • 3.4.3 能量计算
  • 3.5 其它参数
  • 3.6 本章小结
  • 第4章 语音识别模型的训练及匹配
  • 4.1 模型训练方法
  • 4.1.1 偶然性训练法
  • 4.1.2 鲁棒性训练法
  • 4.1.3 聚类训练法
  • 4.2 模型匹配方法
  • 4.2.1 动态时间规整(DTW)
  • 4.2.2 隐马尔可夫模型(HMM)
  • 4.3 本章小结
  • 第5章 数据库的设计收集及测试分析
  • 5.1 本语音数据库的设计收集
  • 5.1.1 录音人来源
  • 5.1.2 录音人数及环境设备
  • 5.1.3 本语音数据库的录音内容
  • 5.1.4 本语音数据库的存储形式
  • 5.2 构建HTK语音识别系统
  • 5.3 实验参数测试及分析
  • 5.3.1 特征参数测试
  • 5.3.2 状态数测试
  • 5.3.3 实验环境及模型参数设置
  • 5.4 数据测试部分
  • 5.4.1 数字部分及分析
  • 5.4.2 字母部分
  • 5.5 模型改进测试
  • 5.6 本章小结
  • 第6章 总结与展望
  • 6.1 本文所做的工作
  • 6.2 本文的总结
  • 6.3 对以后研究的展望
  • 致谢
  • 参考文献
  • 附录1
  • 相关论文文献

    • [1].基于翻转梅尔频率倒谱系数的语音变调检测方法[J]. 计算机应用 2019(12)
    • [2].语音助手能力评估研究及趋势分析[J]. 广东通信技术 2019(12)
    • [3].语音伪造与鉴伪的发展与挑战[J]. 信息安全学报 2020(02)
    • [4].广告语中语音隐喻的使用规则研究[J]. 传播力研究 2020(03)
    • [5].阻止语音欺诈的7种方法[J]. 计算机与网络 2020(09)
    • [6].5G初期语音业务方案与优化策略[J]. 广西通信技术 2019(03)
    • [7].在线语音直播发展动因探析[J]. 视听 2020(09)
    • [8].5G语音回落4G解决方案探讨[J]. 移动通信 2019(04)
    • [9].手机智能语音助手的发展与未来[J]. 通讯世界 2019(04)
    • [10].语音营销,是新机遇,还是新泡沫?[J]. 营销界 2019(02)
    • [11].语音在少数民族口传音乐中的作用——以赫哲族为例[J]. 北极光 2019(06)
    • [12].古交语音与中古语音的比较[J]. 汉字文化 2019(13)
    • [13].手机语音助手用户体验现状及发展[J]. 内蒙古煤炭经济 2019(15)
    • [14].语音助手市场增长惊人[J]. 董事会 2019(10)
    • [15].在线语音直播的兴起与发展探析[J]. 新闻研究导刊 2018(07)
    • [16].基于噪声分类和字典选择的语音活动检测[J]. 华中科技大学学报(自然科学版) 2016(12)
    • [17].语音拣选系统在汽车零部件首批仓库拣选业务中的应用[J]. 物流技术 2017(01)
    • [18].一种基于语音活动检测的声源定位方法[J]. 电脑知识与技术 2017(04)
    • [19].互联网时代语音业务发展的思考分析[J]. 中国新通信 2017(08)
    • [20].一种基于预测谱偏移的自适应高斯混合模型在语音转换中的应用[J]. 华东理工大学学报(自然科学版) 2017(04)
    • [21].语音中继主叫号码的限制[J]. 通讯世界 2017(18)
    • [22].在线语音直播开启直播新战场[J]. 新闻战线 2017(21)
    • [23].基于同轴的广电语音业务的实现[J]. 中国有线电视 2016(08)
    • [24].瑜伽语音冥想对大学生心理健康的积极影响[J]. 赤子(上中旬) 2014(15)
    • [25].语音感知和语音产出——二语语音习得研究梳辨[J]. 语文学刊(外语教育教学) 2015(04)
    • [26].国内外语语音能力研究论析[J]. 宿州学院学报 2015(06)
    • [27].关于语音转换实现的研究[J]. 价值工程 2015(29)
    • [28].浅析语音导览系统在博物馆中的应用[J]. 学理论 2015(32)
    • [29].语音反馈的实践改进[J]. 教学月刊小学版(综合) 2020(06)
    • [30].冷,冷,冷[J]. 意林(原创版) 2019(02)

    标签:;  ;  ;  ;  ;  

    英语作为第二语言的多媒体语音数据库设计制作及初步测试
    下载Doc文档

    猜你喜欢