论文摘要
音乐是一类重要的音频数据,传统的音乐检索都是基于关键词的检索,使用受限。随着互联网的快速发展及数字化设备的普及,基于内容的音频检索研究得到广泛的关注。本文以国家自然科学基金项目“基于Web的音频识别与检索关键技术研究(No.60673100)”为背景,针对基于内容的音乐检索关键技术展开了深入的研究:提出了适合音乐检索的特征提取方法、相似度度量方法和检索算法,并研究语音识别中端点检测及连续词识别等技术,研究成果已应用于基于内容的音乐检索系统中。主要的研究进展如下:1)构建了音乐检索的处理框架和符号体系。在分析音乐检索存在问题的基础上,给出了研究思路;定义了歌谱映射方法及音乐检索中的符号体系,为基于内容的音乐检索打下基础。2)针对音乐特征的算法研究。将音乐特征分为低级特征(旋律轮廓)和高级特征(音乐歌谱)两部分。a)针对低级特征提出了一种旋律轮廓提取算法。此算法能准确地提取出哼唱曲子的旋律轮廓特征,当输入为基本音级时得出的特征值符合音程特征。但此算法要求用户对音调的把握要准确。b)针对高级特征将语音识别技术应用于音乐检索。为从包含歌谱的一段连续语音信号中确定出音符的起点和终点,需要使用端点检测技术,本文提出了一种基于熵和时间序列方法PAA的端点检测算法—PAAEPD(Piecewise AggregateApproximation End Point Detection),用户可直接哼唱歌谱检索目标音乐,对音调把握要求不高,只要发音准确即可实现检索。3)音乐检索算法的研究。a)针对音乐的时序特征定义了字符距离及特征字符串距离,并提出了一个字符串相似度计算方法。分析了音频等复杂数据近似检索的必要性以及现有的字符串近似匹配算法和时间序列相似检索的局限性,提出了本方法并应用于音乐检索中,对音调把握准确者获得92%的前十位检出率。b)提出了以句为单位的分层检索算法。音乐是以句为单位的,并且每句音乐的旋律波动和句子长度都是固定的。本文利用旋律波动和句子长度缩小搜索范围,使检索时间减少了25%。c)针对用户的哼唱习惯提出了跨句检索算法。用户哼唱多句时,数据库中保存的单句旋律轮廓信息不能使用,需要多句旋律特征,文中给出了候选音乐片段及特征生成算法,实现了跨句检索。4)音乐数据库的研究。本文采用音乐的原始歌谱作为库中数据来源,给出了音乐歌谱数据库的构成及数据库中的特征及含义和计算方法。5)将所研究的算法应用于音乐检索,实现了基于内容的音乐哼唱检索系统,取得较好的效果。研究成果可应用于其它类似的应用领域。
论文目录
摘要Abstract目录第一章 绪论§1.1 引言§1.2 课题背景与研究意义§1.3 国内外研究现状分析§1.3.1 基于内容音频检索概述§1.3.2 音乐哼唱检索系统及所用特征研究现状§1.3.3 音乐检索算法国内外现状§1.3.4 语音识别技术发展现状§1.3.5 端点检测研究现状§1.3.6 时间序列研究现状§1.3.7 索引研究现状§1.4 音乐检索存在问题§1.5 本文主要的研究成果§1.6 本论文的组织结构本章参考文献第二章 基于内容音乐检索原理§2.1 音乐特点§2.1.1 音乐乐理§2.1.2 音乐的特点§2.2 歌谱映射及符号定义§2.2.1 歌谱映射§2.2.2 符号定义§2.3 哼唱音乐检索§2.3.1 音乐旋律轮廓特征§2.3.2 哼唱特征提取过程§2.3.3 音乐检索方式§2.4 基于内容音乐检索的特征表示与处理框架§2.5 本章小结本章参考文献第三章 音乐旋律特征提取算法研究§3.1 音乐旋律轮廓提取算法§3.1.1 基音特征提取§3.1.2 音乐旋律轮廓提取算法§3.2 旋律轮廓提取算法应用§3.3 标准音调差值图的生成§3.4 本章小结本章参考文献第四章 字符串相似度研究§4.1 近似字符串匹配算法简介§4.1.1 近似匹配§4.1.2 字符串算法进一步发展概况§4.1.3 时间序列(Time Series)数据相似性搜索算法简介§4.1.4 动态时间规整(DTW)思想简介§4.2 字符串相似度(String Similitary)的提出§4.3 字符及字符串距离定义§4.4 字符串相似度算法§4.5 字符串相似度在音乐检索中的应用§4.5.1 现有音乐检索中应用的字符串匹配算法§4.5.2 基于距离的近似字符串匹配算法在音乐哼唱检索系统中的应用§4.6 算法应用§4.6.1 演唱方式比较§4.6.2 结果比较与分析§4.7 本章小结本章参考文献第五章 音乐检索算法研究§5.1 哼唱行为分析§5.2 旋律波动和句子长度§5.3 旋律音高轮廓和旋律节奏特征的利用§5.4 一种改进的分层检索算法§5.4.1 音乐检索中的索引§5.4.2 算法描述§5.4.3 算法在哼唱检索中的应用§5.5 跨句检索§5.5.1 算法描述§5.5.2 算法应用§5.6 本章小结本章参考文献第六章 端点检测技术研究§6.1 端点检测算法§6.1.1 门限法端点检测§6.1.2 动态窗长语音端点检测§6.1.3 噪音下的端点检测§6.2 时间序列技术§6.3 将时间序列技术用于端点检测§6.3.1 熵函数的构造§6.3.2 PAA用于熵结构的处理§6.3.3 一种基于PAA的端点检测算法—PAAEPD(PAA End Point Detection)§6.3.4 算法应用§6.3.5 各种噪声的特性分析§6.4 本章小结本章参考文献第七章 语音识别技术在音乐检索中的应用§7.1 音乐检索特点§7.2 语音识别技术§7.2.1 语音识别特征选取§7.2.2 语音识别方法§7.3 连接词识别技术在音乐哼唱检索中的应用§7.3.1 歌谱数据预处理§7.3.2 基于DTW的孤立词识别算法及其在音乐检索中的应用§7.4 本章小结本章参考文献第八章 音乐哼唱检索系统原型§8.1 系统结构及环境§8.2 音乐数据库技术研究§8.3 结论及分析第九章 总结与展望§9.1 工作总结§9.2 进一步工作展望攻读博士学位期间发表的论文、科研项目、参加会议及获奖情况致谢
相关论文文献
标签:哼唱检索论文; 旋律轮廓论文; 旋律波动论文; 字符距离论文; 端点检测论文;