论文摘要
随着互联网基础设施的不断完善,现今的网络带宽和网络存储容量有了极大的提高,各种多媒体信息在互联网上层出不穷。音频作为听觉系统的主要输入已经变得越来越多样化,如:流媒体音乐、语音短消息、在线语音公开课等等。音频的多样化给听觉世界带来了新的挑战,那就是如何对音频信息进行有效的分类,从繁芜丛杂的数据集中将具有某种特定形态的音频归属到同一个集合。本文介绍了音频分类的基本知识、应用场景和传统的分类算法。在此基础上,我们提出了两大类音频分类算法,并给出了实验原理和结果。第一类算法使用传统的音频特征的统计信息作为分类的依据,使用到的音频特征包括线性预测编码、短时平均过零率、短时平均能量和频谱通量;然后,针对音频的分帧采样进行上述的特征提取和统计,作为用来进行音频分类的源信息。在分类阶段使用支持向量机作为分类器,选取径向基函数作为将低维特征向量映射到高维空间的核函数。第二类算法使用机器学习中的稀疏编码针对原始的音频采样进行特征学习,得到一组超完备的基向量。通过对基向量进行满足特定分类数量和性质的线性组合拟合出原始的音频采样,拟合过程中对应的权重系数作为原始音频的分类特征:接下来采取和第一类算法同样的分类器进行分类模型的训练,得到较稳定的实验结果。这两类算法的实验结果已在实验中得到验证。实验结果表明两类算法在特定数量和内容的分类问题中能够比已有的分类算法达到更快、更好的分类结果。
论文目录
摘要Abstract第一章 概述1.1 研究背景和意义1.2 语音和非语音分类1.3 国内外研究现状1.4 本文的主要贡献和结构第二章 音频分类技术综述2.1 音频的相关知识2.1.1 音频的概念2.1.2 音频的性质2.1.3 音频信号数字化2.2 音频的分类2.2.1 语音2.2.2 音乐2.2.3 环境音2.2.4 静音2.2.5 带背景音乐的语音2.3 音频分类系统的组成2.3.1 预处理2.3.2 特征提取2.3.3 特征学习2.3.4 分类器训练2.4 音频特征2.4.1 时域特征2.4.2 频域特征2.4.3 时频域特征2.4.4 倒谱特征2.5 分类算法2.5.1 神经网络2.5.2 支持向量机2.5.3 贝叶斯分类器2.5.4 决策树分类器2.6 本文研究方向及其特点第三章 基于特征提取的分类算法3.1 算法流程3.2 音频分帧3.3 特征分析3.3.1 线性预测编码3.3.2 短时平均过零率3.3.3 短时平均能量3.3.4 频谱通量3.4 特征提取3.4.1 线性预测编码特征3.4.2 短时平均过零率特征3.4.3 短时平均能量特征3.4.4 频谱通量特征3.5 模型训练3.5.1 支持向量机3.5.2 特征加权分类器3.5.3 模型加权分类器3.5.4 分类器训练参数3.6 实验数据3.7 实验结果3.7.1 交叉验证3.7.2 结果对比第四章 基于特征学习的分类算法4.1 算法流程4.2 稀疏编码4.2.1 算法概述4.2.2 稀疏特性4.2.3 目标函数4.2.4 概率解释4.2.5 学习策略4.3 特征学习4.3.1 算法输入4.3.2 学习算法4.3.3 算法输出4.4 模型训练4.5 实验数据4.6 实验结果4.6.1 交叉验证4.6.2 结果对比第五章 总结与展望参考文献攻读硕士期间发表的专利致谢
相关论文文献
标签:音频分类论文; 机器学习论文; 特征提取论文; 特征学习论文;