音频场景分析与识别方法研究

音频场景分析与识别方法研究

论文摘要

作为人们感知外界环境的一个重要通道,听觉在视线障碍、不利光照条件等情况中可起到视觉无法替代的作用,是视觉的重要补充。相比于图像数据,音频信号往往可使用相对简单的设备进行采集并且占用更少的存储空间和处理时间。随着当前移动平台计算能力的不断提高,出现了越来越多基于音频的各类应用,所涉及的音频处理算法一直是相关研究领域的重点。其中,提取、分析和有效利用音频数据所携带的语义信息,对基于内容的多媒体检索、摘要以及开发上下文自适应的应用等具有重要意义。本文工作主要针对基于自然场景的音频特征对其进行自动识别与分类。给定采集于某一未知场景的音频数据,本文方法对该音频样本对应的可能场景类型进行分类,具体分为两个步骤:1)抽取和构造刻画音频数据样本本质属性的音频特征集合,包括反映声音不同频段听觉特性的Mel频率倒谱系数(MFCC)特征、伪语义特征、基于信号小波包分解的特征学习与选择(如局部判别基LDB和boosting)等。2)构造合适的音频场景模型并在其基础上对音频样本进行分类,其中分别考察或提出了针对音频场景的混合高斯模型、层次隐马尔可夫模型和随机森林模型。论文对三类模型的特点、组成及其分类方法进行了详细的描述,介绍了模型中对场景与其中音效关系的不同表示形式。针对论文中提出的不同音频特征与场景模型,本文通过在测试数据集上的大量实验分析、比较了不同方法的性能。实验所用数据集部分来自互联网上收集的音频样本,另一部分截取自电视电影视频节目中包含的音频流,共包括21类音效和10类场景。实验结果表明,文中提出的特征选择和场景分类方法是有效的,取得了较高的音频场景识别率。论文最后对已有工作进行了总结,并对进一步研究的主要方向和思路进行了讨论和展望。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 本文研究工作
  • 1.3 论文结构
  • 第2章 音频分析与识别研究
  • 2.1 引言
  • 2.2 音频摘要
  • 2.3 声音分类和识别
  • 2.4 音频场景感知
  • 2.5 本章小结
  • 第3章 音频特征提取
  • 3.1 引言
  • 3.2 Mel频率倒谱系数音频特征
  • 3.3 基于小波包分解的音频特征学习与提取
  • 3.3.1 音频小波包分解
  • 3.3.2 LDB算法
  • 3.3.3 基于boosting的特征选择
  • 3.3.4 基于随机森林的特征选择
  • 3.4 基于词典的音频特征
  • 3.5 Pseudo-Semantic特征
  • 3.6 本章小结
  • 第4章 音频场景建模与分类
  • 4.1 引言
  • 4.2 音频场景建模
  • 4.3 基于HMM的音频场景分类
  • 4.3.1 概率图模型
  • 4.3.2 HMM模型
  • 4.3.3 使用HMM模型进行音频场景分类
  • 4.4 基于高斯混合模型的音频场景分类
  • 4.4.1 高斯混合模型
  • 4.4.2 使用高斯混合模型进行音频场景分类
  • 4.5 基于随机森林的音频场景分类
  • 4.5.1 随机森林模型
  • 4.5.2 使用随机森林进行音频场景分类
  • 4.6 本章小结
  • 第5章 实验结果
  • 5.1 实验数据
  • 5.2 基于HMM的分类
  • 5.2.1 基于场景HMM的音频场景分类
  • 5.2.2 基于音效和场景HMM的音频场景分类
  • 5.3 基于随机森林的分类
  • 5.3.1 直接使用场景数据分类
  • 5.3.2 利用音效提取音频伪语义特征建模
  • 5.4 基于高斯混合模型的分类
  • 5.5 分类方法结果对比
  • 5.6 本章小结
  • 第6章 结束语
  • 6.1 本文成果
  • 6.2 未来展望
  • 致谢
  • 参考文献
  • 附录
  • 附录A 攻读硕士学位期间参加的科研项目
  • 附录B 攻读硕士学位期间发表的学术论文
  • 相关论文文献

    • [1].音频娱乐的最大市场在哪里[J]. 上海广播电视研究 2019(03)
    • [2].用户思维与数据思维驱动优质音频创作[J]. 青年记者 2019(36)
    • [3].智媒时代的音频产业:盈利模式与路径创新[J]. 现代视听 2019(11)
    • [4].融合思维下音频媒体的智能化转向探究[J]. 传媒论坛 2020(03)
    • [5].多通道音频采集前端硬件设计[J]. 科技创新与应用 2020(08)
    • [6].在线音频平台内容付费市场分析[J]. 新闻战线 2019(24)
    • [7].机构媒体音频化发展背景下的人才变革[J]. 南方传媒研究 2019(06)
    • [8].付费音频平台的发展瓶颈与营销策略[J]. 青年记者 2019(33)
    • [9].用户体验视角下的音频知识付费平台主要缺陷与应对策略研究[J]. 声屏世界 2020(04)
    • [10].短音频会成为传统广播的新风口吗?[J]. 视听 2020(06)
    • [11].广播电台音频网的安装与维护[J]. 科技传播 2020(13)
    • [12].音频新闻:脉络、演进与特征[J]. 青年记者 2020(19)
    • [13].基于音频指纹的广播电台内容监测识别技术[J]. 西部广播电视 2020(17)
    • [14].中国移动音频平台营销策略及其启示[J]. 中国传媒科技 2020(08)
    • [15].智能网联时代车载音频的内容生产与运营研究——以听伴为例[J]. 东南传播 2020(09)
    • [16].移动互联网音频平台主持人特色[J]. 戏剧之家 2019(12)
    • [17].付费模式对音频出版的助力研究[J]. 传播力研究 2019(13)
    • [18].“新科技”元年:围绕用户发力声音价值[J]. 声屏世界·广告人 2017(02)
    • [19].基于云架构的音频采录拆条系统的设计与实现[J]. 电声技术 2017(03)
    • [20].基于凝聚信息瓶颈的音频事件聚类方法[J]. 电子学报 2017(05)
    • [21].张弛有度——如何把控音频节目节奏[J]. 影视制作 2017(03)
    • [22].录音设备安装与调试中音频干扰的来源与消除[J]. 电子世界 2017(18)
    • [23].生活中的科技[J]. 初中生 2019(Z6)
    • [24].《音频的编辑》教学设计[J]. 中国信息技术教育 2020(18)
    • [25].《音频基础》课程的设计与教学[J]. 中国文艺家 2020(10)
    • [26].基于倒谱分析的实时广播音频相似度快速比对算法[J]. 工程科学与技术 2020(03)
    • [27].基于球谐域三维音频直播系统的实现[J]. 电声技术 2020(04)
    • [28].浅析音频节目可视化的机遇与挑战——以《朋友请听好》为例[J]. 传播力研究 2020(07)
    • [29].基于压缩感知和音频指纹的固定音频检索方法[J]. 计算机系统应用 2020(08)
    • [30].论标准技术流程里的艺术呈现——里约奥运乒乓球音频公共信号制作[J]. 现代电视技术 2017(03)

    标签:;  ;  ;  ;  ;  

    音频场景分析与识别方法研究
    下载Doc文档

    猜你喜欢