基于停用词处理的汉语语音检索方法

基于停用词处理的汉语语音检索方法

论文摘要

随着互联网和多媒体技术的发展,语音资料的数量迅速膨胀。快速有效地进行语音资料的检索变得越来越重要。语音检索作为语音识别研究中的一个新领域,其目的是在大量语音资源中搜索与用户给出的查询词(Query)相关联的语音段。它通过事先为语音资源建立索引,从而实现了基于语义内容的快速搜索。本文的主要工作是研究汉语语音检索系统的性能优化策略。针对语音资料中大量出现的停用词问题,本文引入了停用词处理技术。停用词被定义为在文档中出现频率很高,但是对实际的检索没有帮助的词。引入与检索内容无关的停用词,对于信息相关性的计算精度必然产生负面影响,从而制约检索的精度。由于语音检索的特殊性,本文采用左右熵的方法来进行停用词的选择。给出了停用词的选择算法,通过比较左右熵方法和词频方法可以看出,左右熵方法得到的停用词效果更好,更能反映上下文的情况。应用所提出的方法,本文给出完整的语音检索在线部分处理过程,包括利用音节Lattice建立索引,利用向量空间模型进行查询词和语音文档之间相似度的计算,最后根据相似度对查询结果排序,从而给出用户的查询结果。每个语音文档都由一个特征向量来表示,特征向量中的每个分量从语音文档对应的lattice中提取。通过搜索每个lattice,从中提取所有音节和相邻音节对的声学分来形成语音文档的特征向量。由于语音识别的不准确性以及汉语中一音多字现象的存在,本文提出对特征向量中出现的停用词音节序列加入惩罚因子,以降低其在特征向量中的权重。通过试验比较,惩罚因子取值为0.1。在检索的过程中,通过计算查询词和文档特征向量的余弦相似度来进行相关性的评定。通过实验分析系统的检索性能可以看出,经过停用词处理对系统性能得到了较好的改进。本文主要贡献:提出了基于左右熵方法的停用词选择算法,比较好地实现了在音节Lattice中自动选择停用词。提出了基于停用词惩罚方法的向量空间模型改进方法,使得检索性能有较大改善。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 相关工作的国内外研究现状
  • 1.2.1 ASR识别器
  • 1.2.2 停用词选择及意义
  • 1.2.3 基于子词lattice的检索模型
  • 1.2.4 论文的主要内容及其组织
  • 第2章 语音识别的基本框架
  • 2.1 概述
  • 2.2 连续语音识别系统
  • 2.2.1 预处理与特征提取
  • 2.2.2 声学模型
  • 2.3 音节Lattice
  • 2.4 本章小结
  • 第3章 语音检索中停用词处理
  • 3.1 停用词概念
  • 3.2 停用词的选择
  • 3.2.1 基于词频的选择方法
  • 3.2.2 基于熵的选择方法
  • 3.2.3 基于联合熵的选择方法
  • 3.3 基于音节Lattice的停用词选择
  • 3.3.1 熵的基本原理
  • 3.3.2 左右熵基本原理
  • 3.4 实验及分析
  • 3.5 本章小结
  • 第4章 基于停用词处理的语音检索
  • 4.1 检索模型介绍
  • 4.1.1 布尔模型
  • 4.1.2 隐含语义索引模型
  • 4.1.3 概率模型
  • 4.1.4 向量空间模型
  • 4.2 语音检索中的向量空间模型
  • 4.2.1 索引特征项的选择
  • 4.2.2 索引特征项的赋权
  • 4.2.3 相似度计算
  • 4.2.4 检索性能评价
  • 4.3 对向量空间模型的分析
  • 4.4 实验及分析
  • 4.4.1 语料库
  • 4.4.2 音节识别器的识别性能
  • 4.4.3 语音检索基线系统的建立
  • 4.4.4 基于停用词处理的系统改进
  • 4.5 本章小结
  • 结论
  • 参考文献
  • 附录
  • 致谢
  • 相关论文文献

    • [1].印度留学生汉语语音偏误实证研究[J]. 大理大学学报 2020(01)
    • [2].法语背景留学生汉语语音习得偏误研究[J]. 国际公关 2020(08)
    • [3].用历时动态研究法学习汉语语音史[J]. 中北大学学报(社会科学版) 2020(05)
    • [4].基于汉语语音规范化谈提高中职语文教师的专业素质[J]. 智库时代 2017(17)
    • [5].留学生汉语语音评价软件过程模型构建研究[J]. 价值工程 2017(11)
    • [6].对藏族学生汉语语音教学的新思路[J]. 赤峰学院学报(汉文哲学社会科学版) 2016(02)
    • [7].汉语语音“四要素”的物理属性探讨[J]. 广西教育 2019(39)
    • [8].现代汉语语音变化原因探析[J]. 散文百家(理论) 2020(05)
    • [9].义务教育新课标与少数民族汉语教学——从新疆南疆汉语语音教学“欠债”问题说起[J]. 课程教育研究 2017(21)
    • [10].儿童汉语语音意识发展之研究[J]. 读与写(教育教学刊) 2008(01)
    • [11].基于老挝留学生发音特征的汉语语音评价体系研究[J]. 现代语文(语言研究版) 2015(03)
    • [12].“韵语”和“对偶”:不该丢失的经典[J]. 语文天地 2017(03)
    • [13].现代汉语语音教学改革思路探讨[J]. 语文教学与研究 2017(08)
    • [14].《汉语语音习得研究》序言[J]. 南开语言学刊 2016(02)
    • [15].重视汉字解读 夯实语文基础[J]. 语数外学习(高中版中旬) 2016(09)
    • [16].国际汉语语音教学的定位与重点[J]. 国际汉语学报 2016(02)
    • [17].语音系统对泰国小学生汉语语音学习带来的偏误影响[J]. 北方文学 2017(17)
    • [18].刍议汉语语音在英汉翻译中的应用[J]. 大家 2010(17)
    • [19].汉语史课程“汉语语音史”部分教学方案[J]. 教育教学论坛 2009(Z1)
    • [20].近三十年我国对外汉语语音偏误研究综述——基于CNKI的文献统计分析[J]. 宜春学院学报 2020(07)
    • [21].谈汉语语音对文化的影响[J]. 佳木斯职业学院学报 2018(10)
    • [22].多语环境下韩国学生汉语语音偏误调查研究[J]. 教育观察 2017(20)
    • [23].关于日本留学生汉语语音教学策略研究[J]. 环球人文地理 2014(04)
    • [24].汉语语音史框架之浅谈[J]. 神州 2013(28)
    • [25].论《阿汉对音与元代汉语语音》的原创意义[J]. 求索 2014(04)
    • [26].罗马尼亚学生学习汉语语音方面的难点和教学对策[J]. 美与时代(下) 2018(01)
    • [27].对外汉语语音教学方法及其技巧[J]. 艺术科技 2017(06)
    • [28].韩国留学生汉语语音偏误与影响因素研究[J]. 鄂州大学学报 2016(03)
    • [29].求同存异 辩证看待“汉语语音”[J]. 知识文库 2019(11)
    • [30].韩国留学生汉语语音习得难点分析及教学建议[J]. 考试周刊 2016(19)

    标签:;  ;  ;  ;  ;  

    基于停用词处理的汉语语音检索方法
    下载Doc文档

    猜你喜欢