论文摘要
随着多媒体信息的迅速发展,越来越多的语音数据开始出现在人们的日常生活中,语音信息检索技术应运而生。在对这类语音信息检索的查询请求可以通过文本或语音输入方式完成。本文研究了一种通过语音输入查询的方式来检索语音文档的系统,即语音到语音的检索。本文所研究的语音到语音的检索系统可以分为语音识别系统和信息检索系统两部分。对于语音识别系统,本文利用开源工具HTK搭建了一套以汉字音节为基本单位的语音识别系统,并从语言学模型中平滑算法的角度,将SGT (Simple Good-Turing)的平滑思想和Katz算法结合,提出了一种改进的Katz算法,从而提高了语音识别系统的正确率。对于信息检索系统,本文采用目前应用最为广泛的向量空间模型(Vector Space Model, VSM)检索技术,利用词频(Term Frequency, TF)和倒转文档频率(Inverse Document Frequency, IDF)来构建词项索引,对比了在语音识别结果为One-best和音节网格(Lattice)两种形式下的平均检索正确率,并研究了音节网格中声学得分对检索系统正确率的影响。实验表明,语音检索系统的正确率很大程度上取决于语音识别系统的正确率。基于Lattice的语音检索系统能减小语音识别系统的误识率带来的影响,其平均正确率比One-best的情况下提高了5.54%左右。
论文目录
摘要ABSTRACT第1章 绪论1.1 研究的目的及意义1.2 语音检索技术的发展过程和研究现状1.3 本课题的系统框架1.4 本文研究重点及章节安排第2章 基于HTK的语音识别系统搭建2.1 语音识别原理2.1.1 HMM简介2.1.2 基于HMM的语音识别原理2.2 基于HTK的语音识别系统搭建过程2.2.1 HTK简介2.2.2 数据准备2.2.3 训练声学模型2.2.3 训练语言学模型2.2.4 识别解码2.2.5 性能评测2.3 语音识别结果的三种类型2.3.1 One-best2.3.2 N-best2.3.3 Lattice2.4 本章小结第3章 语言学模型平滑算法研究3.1 Katz平滑算法的折扣系数分析3.2 改进的Katz平滑算法r的平滑处理'>3.2.1 r和nr的平滑处理3.2.2 改进的Katz处理3.2.3 基于困惑度的实验3.3 在基于Lattice识别系统中的应用3.3.1 对Lattice结构的影响3.3.2 对基于Lattice的识别系统性能的影响3.4 本章小结第4章 基于Lattice的语音检索系统4.1 信息检索技术4.1.1 向量空间模型原理介绍4.1.2 检索效果的评测4.2 实验数据准备4.3 基于One-best的基线检索系统4.4 基于Lattice的检索系统4.5 本章小结结论参考文献攻读硕士学位期间发表的论文和取得的科研成果
相关论文文献
标签:语音检索论文; 音节网格论文; 向量空间模型论文;