论文摘要
随着互联网的高速发展,涌现大量的音频,视频,图像信息。但是音频信息的研究速度远远比不上视频和图像的研究,而且对大量音频信息的分类识别工作,单靠人工标注是一件庞大而又繁琐的工程,因此,实现对音频信号的自动识别,是音频领域的研究重点。但是,原始音频具有极其复杂的表示方式,缺少语义内容和结构化的组织,如何选择能够准确表示此类音频的特征信息,并且运用何种识别方法将未知音频正确分类识别是音频识别的重要研究内容。本文在SVM的基础上,重点研究了SSVM的分类原理,并提出了两类光滑模型:Sigmoid的积分函数的光滑模型和多项式光滑模型,通过实验比较分析各种光滑模型的分类性能,得出了结论,即光滑支持向量机的一阶、二阶、三阶光滑模型的分类性能大于Sigmoid的积分函数的光滑模型。在特征提取阶段,本文分析并提取了短时能量、过零率、频谱通量、频谱质心、Mel倒谱系数和一阶差分倒谱系数等6种特征,并根据不同的音频类型选取不同的特征组成特征向量。在分类识别阶段,本文选取了经典的SVM、标准的SSVM和多项式SSVM等三种分类方法,训练了三类音频分类器:语音/音乐分类器、男声/女声分类器、汉语/英语分类器,和经典的SVM方法做对比,证明了SSVM在音频识别方面达到了令人满意的精度。最后本文研究了一种基于层次化的SSVM的音频识别方法,将多类音频信息正确识别出男声(汉语和英语)、女声、静音、噪音、音乐等,并且也达到了可令人接受的精度要求。
论文目录
摘要Abstract第一章 绪论1.1 引言1.2 音频的基础知识1.2.1 音频的内容结构1.2.2 音频的常用格式1.3 音频的研究现状1.3.1 特征提取方面的研究1.3.2 分类器方面的研究1.3.3 国内外研究总结1.4 音频识别的系统结构1.5 论文的主要工作和内容安排第二章 特征提取2.1 音频信号的预处理阶段2.2 音频信号的特征分析阶段2.2.1 时域特征2.2.2 频域特征2.2.3 Mel倒谱特征2.3 本章小节第三章 分类方法3.1 最小距离法3.2 支持向量机3.2.1 支持向量机的特点3.2.2 线性可分情况3.2.3 线性不可分情况3.2.4 常见的核函数3.3 一种新的音频识别方法—光滑支持向量机3.3.1 线性可分情况3.3.2 线性不可分情况3.3.3 SSVM与SVM的比较3.3.4 几种光滑支持向量机模型的光滑函数3.3.5 光滑支持向量机的算法实现3.4 本章小结第四章 基于SSVM的音频识别技术4.1 预处理4.2 静音端点处理4.3 特征参数的提取与选择4.3.1 实验流程图4.3.2 实验结果及分析4.4 基于分类器的音频实验4.4.1 语音和音乐的分类器实验4.4.2 男生声音和女生声音的分类器实验4.4.3 汉语和英语的分类器实验4.5 本章小结第五章 基于层次化的SSVM的音频识别5.1 实验介绍及流程图5.2 实验设计5.2.1 分类器训练系统设计5.2.2 分类器分类系统设计5.3 实验过程及结果5.3.1 第一层分类5.3.2 第二层分类5.3.3 第三层分类5.3.4 结果及分析5.4 本章小结总结与展望参考文献攻读硕士学位期间取得的研究成果致谢
相关论文文献
标签:音频识别论文; 特征提取论文; 光滑支持向量机论文; 多项式光滑函数论文;