音频分类技术研究

音频分类技术研究

论文摘要

随着互联网基础设施的不断完善,现今的网络带宽和网络存储容量有了极大的提高,各种多媒体信息在互联网上层出不穷。音频作为听觉系统的主要输入已经变得越来越多样化,如:流媒体音乐、语音短消息、在线语音公开课等等。音频的多样化给听觉世界带来了新的挑战,那就是如何对音频信息进行有效的分类,从繁芜丛杂的数据集中将具有某种特定形态的音频归属到同一个集合。本文介绍了音频分类的基本知识、应用场景和传统的分类算法。在此基础上,我们提出了两大类音频分类算法,并给出了实验原理和结果。第一类算法使用传统的音频特征的统计信息作为分类的依据,使用到的音频特征包括线性预测编码、短时平均过零率、短时平均能量和频谱通量;然后,针对音频的分帧采样进行上述的特征提取和统计,作为用来进行音频分类的源信息。在分类阶段使用支持向量机作为分类器,选取径向基函数作为将低维特征向量映射到高维空间的核函数。第二类算法使用机器学习中的稀疏编码针对原始的音频采样进行特征学习,得到一组超完备的基向量。通过对基向量进行满足特定分类数量和性质的线性组合拟合出原始的音频采样,拟合过程中对应的权重系数作为原始音频的分类特征:接下来采取和第一类算法同样的分类器进行分类模型的训练,得到较稳定的实验结果。这两类算法的实验结果已在实验中得到验证。实验结果表明两类算法在特定数量和内容的分类问题中能够比已有的分类算法达到更快、更好的分类结果。

论文目录

  • 摘要
  • Abstract
  • 第一章 概述
  • 1.1 研究背景和意义
  • 1.2 语音和非语音分类
  • 1.3 国内外研究现状
  • 1.4 本文的主要贡献和结构
  • 第二章 音频分类技术综述
  • 2.1 音频的相关知识
  • 2.1.1 音频的概念
  • 2.1.2 音频的性质
  • 2.1.3 音频信号数字化
  • 2.2 音频的分类
  • 2.2.1 语音
  • 2.2.2 音乐
  • 2.2.3 环境音
  • 2.2.4 静音
  • 2.2.5 带背景音乐的语音
  • 2.3 音频分类系统的组成
  • 2.3.1 预处理
  • 2.3.2 特征提取
  • 2.3.3 特征学习
  • 2.3.4 分类器训练
  • 2.4 音频特征
  • 2.4.1 时域特征
  • 2.4.2 频域特征
  • 2.4.3 时频域特征
  • 2.4.4 倒谱特征
  • 2.5 分类算法
  • 2.5.1 神经网络
  • 2.5.2 支持向量机
  • 2.5.3 贝叶斯分类器
  • 2.5.4 决策树分类器
  • 2.6 本文研究方向及其特点
  • 第三章 基于特征提取的分类算法
  • 3.1 算法流程
  • 3.2 音频分帧
  • 3.3 特征分析
  • 3.3.1 线性预测编码
  • 3.3.2 短时平均过零率
  • 3.3.3 短时平均能量
  • 3.3.4 频谱通量
  • 3.4 特征提取
  • 3.4.1 线性预测编码特征
  • 3.4.2 短时平均过零率特征
  • 3.4.3 短时平均能量特征
  • 3.4.4 频谱通量特征
  • 3.5 模型训练
  • 3.5.1 支持向量机
  • 3.5.2 特征加权分类器
  • 3.5.3 模型加权分类器
  • 3.5.4 分类器训练参数
  • 3.6 实验数据
  • 3.7 实验结果
  • 3.7.1 交叉验证
  • 3.7.2 结果对比
  • 第四章 基于特征学习的分类算法
  • 4.1 算法流程
  • 4.2 稀疏编码
  • 4.2.1 算法概述
  • 4.2.2 稀疏特性
  • 4.2.3 目标函数
  • 4.2.4 概率解释
  • 4.2.5 学习策略
  • 4.3 特征学习
  • 4.3.1 算法输入
  • 4.3.2 学习算法
  • 4.3.3 算法输出
  • 4.4 模型训练
  • 4.5 实验数据
  • 4.6 实验结果
  • 4.6.1 交叉验证
  • 4.6.2 结果对比
  • 第五章 总结与展望
  • 参考文献
  • 攻读硕士期间发表的专利
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    音频分类技术研究
    下载Doc文档

    猜你喜欢