基于音节片Lattice的语音检索关键问题研究

基于音节片Lattice的语音检索关键问题研究

论文摘要

随着互联网和信息技术的快速发展,多媒体信息资源越来越多,对多媒体信息进行检索和分类也越来越重要。广播、会议、互联网上的语音数据越来越多,如何在海量的语音库当中搜索出我们需要的信息,成为亟待解决的问题。所谓语音文档检索是指,根据用户输入的查询请求,在语音资源中搜索和返回与查询请求中关键词相关联的语音段或语音文件的处理过程。语音文档检索一般包含两个阶段:离线索引阶段和在线检索阶段。离线索引阶段主要包括语音识别和索引构建两大模块。在线检索的性能和这两个模块息息相关。语音识别结果有三种形式,One-best、N-best和Lattice形式。Lattice是一种有向无环图形式,包含的候选结果多,可以补偿语音识别错误带来的影响,有效地提高系统的检索性能。因此目前研究人员多采用Lattice作为语音识别的结果,基于Lattice的语音检索也成为主流。在汉语语音识别中,和汉字、词和短语句子相比,音节因为其数量有限,表达内容丰富而成为基元,更重要的是音节可以有效地解决词表外词(OOV)的问题。在基于音节Lattice的语音文档检索中,Lattice冗余信息多,结构复杂,不便于处理,本文研究了在Lattice基础上生成混淆网络的方法。混淆网络是一种更为简洁高效的网络,接近线性结构,包含的信息丰富并且易于后续处理。和Lattice相比,基于混淆网络构建的索引占用空间更小,更适合后续检索。同时为了提高检索的精度,本文基于文本分析的结果,筛选出词频较高的一些音节组合作为词片,生成音节和音节词片的语言模型,再生成字词混合的Lattice,将其转化为混淆网络,实验证明这种方法有效的提高了识别率。传统的向量空间模型(VSM)应用于多候选结果的语音文档检索时存在不合理性,本文针对传统的VSM模型进行了改进,改变了权重计算方法,使之更适合基于多候选的混淆网络检索。实验表明,词片的引入大大提高了Lattice和混淆网络的识别率,同时混淆网络的索引形式相比Lattice更为简洁高效、易于处理。同基线系统的检索结果相比,基于混淆网络的语音文档检索精度在准确率和结果排名方面都有大幅提升。

论文目录

  • 摘要
  • ABSTRACT
  • 第1章 绪论
  • 1.1 研究的目的和意义
  • 1.2 国内外研究现状
  • 1.2.1 语音识别的发展现状
  • 1.2.2 索引技术发展现状
  • 1.2.3 语音检索的发展现状
  • 1.2.4 汉语语音检索的发展
  • 1.3 本文的主要研究内容
  • 1.4 本文的主要组织框架
  • 第2章 基于 HTK 的语音识别系统
  • 2.1 基于 HMM 的语音识别原理
  • 2.1.1 HMM 的定义
  • 2.1.2 HMM 基本算法
  • 2.2 HTK 识别工具介绍
  • 2.3 基于 HTK 语音识别系统的搭建过程
  • 2.4 HTK 识别结果的三种形式
  • 2.5 本章小结
  • 第3章 基于词片混淆网络的索引构建
  • 3.1 词片的引入
  • 3.2 混淆网络概述
  • 3.3 混淆网络生成算法
  • 3.3.1 预处理
  • 3.3.2 词片 Lattice 的分解
  • 3.3.3 相同词聚类
  • 3.3.4 不同词聚类
  • 3.4 词信息的提取
  • 3.5 混淆网络的评价
  • 3.6 实验结果与性能分析
  • 3.7 本章小结
  • 第4章 语音检索系统
  • 4.1 信息检索模型
  • 4.2 基于 one-best 的语音文档检索系统
  • 4.3 基于音节 Lattice 的语音检索
  • 4.4 基于混淆网络的语音检索系统
  • 4.5 本章小结
  • 第5章 实验结果与分析
  • 5.1 实验环境
  • 5.2 评价指标
  • 5.3 实验结果
  • 5.3.1 基于音节 one-best 的语音检索
  • 5.3.2 基于音节 Lattice 的语音检索
  • 5.3.3 基于混淆网络的语音检索实验
  • 5.4 实验结果分析
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    • [1].基于翻转梅尔频率倒谱系数的语音变调检测方法[J]. 计算机应用 2019(12)
    • [2].语音助手能力评估研究及趋势分析[J]. 广东通信技术 2019(12)
    • [3].语音伪造与鉴伪的发展与挑战[J]. 信息安全学报 2020(02)
    • [4].广告语中语音隐喻的使用规则研究[J]. 传播力研究 2020(03)
    • [5].阻止语音欺诈的7种方法[J]. 计算机与网络 2020(09)
    • [6].5G初期语音业务方案与优化策略[J]. 广西通信技术 2019(03)
    • [7].在线语音直播发展动因探析[J]. 视听 2020(09)
    • [8].语音欺骗检测方法的研究现状及展望[J]. 数据采集与处理 2020(05)
    • [9].5G语音回落4G解决方案探讨[J]. 移动通信 2019(04)
    • [10].手机智能语音助手的发展与未来[J]. 通讯世界 2019(04)
    • [11].语音营销,是新机遇,还是新泡沫?[J]. 营销界 2019(02)
    • [12].语音在少数民族口传音乐中的作用——以赫哲族为例[J]. 北极光 2019(06)
    • [13].古交语音与中古语音的比较[J]. 汉字文化 2019(13)
    • [14].手机语音助手用户体验现状及发展[J]. 内蒙古煤炭经济 2019(15)
    • [15].语音助手市场增长惊人[J]. 董事会 2019(10)
    • [16].在线语音直播的兴起与发展探析[J]. 新闻研究导刊 2018(07)
    • [17].基于噪声分类和字典选择的语音活动检测[J]. 华中科技大学学报(自然科学版) 2016(12)
    • [18].语音拣选系统在汽车零部件首批仓库拣选业务中的应用[J]. 物流技术 2017(01)
    • [19].一种基于语音活动检测的声源定位方法[J]. 电脑知识与技术 2017(04)
    • [20].互联网时代语音业务发展的思考分析[J]. 中国新通信 2017(08)
    • [21].一种基于预测谱偏移的自适应高斯混合模型在语音转换中的应用[J]. 华东理工大学学报(自然科学版) 2017(04)
    • [22].语音中继主叫号码的限制[J]. 通讯世界 2017(18)
    • [23].在线语音直播开启直播新战场[J]. 新闻战线 2017(21)
    • [24].基于同轴的广电语音业务的实现[J]. 中国有线电视 2016(08)
    • [25].瑜伽语音冥想对大学生心理健康的积极影响[J]. 赤子(上中旬) 2014(15)
    • [26].语音感知和语音产出——二语语音习得研究梳辨[J]. 语文学刊(外语教育教学) 2015(04)
    • [27].国内外语语音能力研究论析[J]. 宿州学院学报 2015(06)
    • [28].关于语音转换实现的研究[J]. 价值工程 2015(29)
    • [29].浅析语音导览系统在博物馆中的应用[J]. 学理论 2015(32)
    • [30].语音反馈的实践改进[J]. 教学月刊小学版(综合) 2020(06)

    标签:;  ;  ;  ;  

    基于音节片Lattice的语音检索关键问题研究
    下载Doc文档

    猜你喜欢