基于数字指纹的音频识别与认证研究

基于数字指纹的音频识别与认证研究

论文摘要

数字音频指纹是指可以代表一段声音重要声学特征的基于内容的紧致数字签名,其最主要的应用包括进行未知音乐检索的数字音频识别技术和作为鲁棒数字签名进行音频完整性/真实性校验的数字音频认证技术。本文介绍了音频指纹技术的基本概念、性质和算法的基本框架,针对指纹在音频识别和音频认证中的应用,对现有的音频指纹算法进行了评价和比较。提出了采用小波包最优基分解作为数学工具,在此基础上计算各种基于最佳子树中小波包系数的统计量作为鲁棒音频指纹,并分别用于未知音乐检索和基于质量/内容音频软认证的三种算法。算法1采用音频信号每帧最优小波包系数能量与平均能量的比值作为音频指纹比特序列进行未知音乐识别。实验结果表明此类指纹在不同音乐之间具有明显的可区分性,并且在受到有损压缩、添加噪声、重采样等一般音频信号处理时与原始指纹仍具有很高的相似性,即对音频信号处理具有强鲁棒性。这说明即使在遭受较强失真的情况下,此种特征也完全可以用于未知音频片段的数据库检索。算法2分别采用上述能量比值特征和最优分解后每帧小波包系数标准差与平均标准差的比值作为音频指纹比特序列进行基于内容的音频软认证。实验结果表明这两类特征对常见的保持内容信号处理如MP3压缩、回声、均衡化、重采样、调幅、添加噪声等均具有强鲁棒性从而通过认证,而对局部替换、修改、删除、复制音频等恶意操作则完全脆弱并触发检测器使认证失败,同时还能较准确地定位被恶意篡改的位置。算法3采用每帧最优小波包系数代数和的符号即±1序列作为音频指纹用于基于质量的音频软认证。采用客观音频质量评价工具PEAQ(PerceptualEvaluation of Audio Quality)区分某一音频处理是否引起质量下降到临界点。实验发现除各种比特率下的MP3压缩均能保持很高PEAQ值,被视为保持质量操作而通过认证外,均衡化、变调、混响、加回声、时间尺度伸缩等其它引起音频特殊效果的音频处理均引起PEAQ值较大下降,在此种意义下被视为不可接受操作而使认证失败。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 数字音频指纹技术的产生背景及基本概念
  • 1.2 数字音频指纹的应用及发展
  • 1.2.1 音乐识别
  • 1.2.2 音频认证
  • 1.2.3 音频内容控制和跟踪
  • 1.2.4 增值服务
  • 1.2.5 其他应用
  • 1.3 本文的研究内容与结构
  • 第二章 数字音频指纹技术概述
  • 2.1 引言
  • 2.2 数字指纹与传统哈希函数的区别
  • 2.3 音频指纹使用模式
  • 2.3.1 音频识别
  • 2.3.2 音频认证
  • 2.3.3 辅助水印技术
  • 2.3.4 基于内容的音频检索和处理
  • 2.4 音频指纹的性质
  • 2.5 音频指纹算法基本框架
  • 2.5.1 前端处理
  • 2.5.2 指纹的模型化
  • 2.5.3 数据库搜索和比对算法
  • 2.6 指纹的评价方法
  • 2.6.1 应用于音频识别的指纹评价
  • 2.6.2 应用于音频质量认证的指纹评价
  • 2.6.3 鲁棒性的测试标准
  • 2.7 常见音频处理
  • 第三章 基于小波包最优基的音频识别指纹提取算法实现
  • 3.1 引言
  • 3.2 音频识别算法概述
  • 3.3 信号的时频分析方法
  • 3.3.1 从短时傅立叶变换到小波变换
  • 3.3.2 小波包变换
  • 3.3.3 最优小波包基提取
  • 3.4 基于小波包最优基的音乐指纹提取算法
  • 3.4.1 指纹提取算法
  • 3.4.2 实验结果
  • 3.5 本章小结
  • 第四章 基于小波包优选系数的音频软认证算法
  • 4.1 引言
  • 4.2 音频内容完整性认证系统
  • 4.2.1 多媒体认证的分类
  • 4.2.2 内容完整性认证系统的定义与性质
  • 4.2.3 基于水印和基于指纹的音频认证
  • 4.3 音频认证算法概述
  • 4.3.1 基于指纹的音频认证算法
  • 4.3.2 基于半脆弱水印的音频认证算法
  • 4.4 基于小波包优选系数的音频内容软认证算法
  • 4.4.1 音频指纹提取
  • 4.4.2 实验结果
  • 4.5 基于小波包优选系数的音频质量软认证算法
  • 4.5.1 算法修改
  • 4.5.2 实验结果
  • 4.6 本章小结
  • 第五章 结论与未来展望
  • 参考文献
  • 附录 音频数据边界检测
  • 攻读硕士期间发表的论文
  • 致谢
  • 相关论文文献

    • [1].音频娱乐的最大市场在哪里[J]. 上海广播电视研究 2019(03)
    • [2].用户思维与数据思维驱动优质音频创作[J]. 青年记者 2019(36)
    • [3].智媒时代的音频产业:盈利模式与路径创新[J]. 现代视听 2019(11)
    • [4].融合思维下音频媒体的智能化转向探究[J]. 传媒论坛 2020(03)
    • [5].多通道音频采集前端硬件设计[J]. 科技创新与应用 2020(08)
    • [6].在线音频平台内容付费市场分析[J]. 新闻战线 2019(24)
    • [7].机构媒体音频化发展背景下的人才变革[J]. 南方传媒研究 2019(06)
    • [8].付费音频平台的发展瓶颈与营销策略[J]. 青年记者 2019(33)
    • [9].用户体验视角下的音频知识付费平台主要缺陷与应对策略研究[J]. 声屏世界 2020(04)
    • [10].短音频会成为传统广播的新风口吗?[J]. 视听 2020(06)
    • [11].广播电台音频网的安装与维护[J]. 科技传播 2020(13)
    • [12].音频新闻:脉络、演进与特征[J]. 青年记者 2020(19)
    • [13].基于音频指纹的广播电台内容监测识别技术[J]. 西部广播电视 2020(17)
    • [14].中国移动音频平台营销策略及其启示[J]. 中国传媒科技 2020(08)
    • [15].移动互联网音频平台主持人特色[J]. 戏剧之家 2019(12)
    • [16].付费模式对音频出版的助力研究[J]. 传播力研究 2019(13)
    • [17].“新科技”元年:围绕用户发力声音价值[J]. 声屏世界·广告人 2017(02)
    • [18].基于云架构的音频采录拆条系统的设计与实现[J]. 电声技术 2017(03)
    • [19].基于凝聚信息瓶颈的音频事件聚类方法[J]. 电子学报 2017(05)
    • [20].张弛有度——如何把控音频节目节奏[J]. 影视制作 2017(03)
    • [21].录音设备安装与调试中音频干扰的来源与消除[J]. 电子世界 2017(18)
    • [22].生活中的科技[J]. 初中生 2019(Z6)
    • [23].《音频的编辑》教学设计[J]. 中国信息技术教育 2020(18)
    • [24].浅谈广播音频与互联网移动音频的融合发展[J]. 信息记录材料 2020(10)
    • [25].《音频基础》课程的设计与教学[J]. 中国文艺家 2020(10)
    • [26].基于倒谱分析的实时广播音频相似度快速比对算法[J]. 工程科学与技术 2020(03)
    • [27].基于球谐域三维音频直播系统的实现[J]. 电声技术 2020(04)
    • [28].浅析音频节目可视化的机遇与挑战——以《朋友请听好》为例[J]. 传播力研究 2020(07)
    • [29].基于压缩感知和音频指纹的固定音频检索方法[J]. 计算机系统应用 2020(08)
    • [30].论标准技术流程里的艺术呈现——里约奥运乒乓球音频公共信号制作[J]. 现代电视技术 2017(03)

    标签:;  ;  ;  ;  ;  

    基于数字指纹的音频识别与认证研究
    下载Doc文档

    猜你喜欢