音乐信号框架逼近的快速算法和SVM识别单音旋律

论文摘要

音乐信号分析自20世纪60年代起,一直吸引着众多学者的目光,但是由于技术限制和音乐本身的复杂性,一直都没有得到很好的结果。随着21世纪数字信息技术的发展,许多基于音乐信号分析的应用,例如音乐的自动标注、乐谱转译和音乐检索等,都对分析结果有着较高要求。但是由于音乐信号构成复杂,即使对于完全数字化的信号,至今仍没有较为完善的方法对其进行细致的分析。音乐由乐器产生,准确地讲,是由乐器本身或其部件振动产生。标准乐器产生的声音都有固定的音高,而音高对应的物理概念是其振动的频率。由于记录乐谱和演奏统一性的需要,人们指定了音符与音高的对应关系,即乐音体系。每一种乐音体系都规定了音符对应的频率,这些频率离散分布,有限并有固定的数学关系,因此只要知道了一个标准频率和音符间的数学关系,就可以得到整个乐音体系的所有频率。人耳能听到的频率范围是20Hz-20000Hz,那么在给定乐音体系下,我们能听到的乐音为有限个频率。基于此,我们考虑使用框架理论对乐音信号进行分析。令为乐音频率集合,共有K个:（?）并且（?）再令（?）这里（）是m次B样条函数,则可证得如下定理定理（?）是一组稳定基。（?）具有如下性质:命题令（?）如果（?）在定义域内线性无关,那么（?）在定义域内也线性无关。类似地,令（?）这里（?）是高斯函数,即（?）使用上面的符号,我们有如下定理定理如果一个函数（?）可以被表示成如下形式（?）这里（?）并且存在1 2使得（?）那么（?）是一组稳定基。同理,我们可以证明（?）都是稳定基,这里Φ是B样条函数或高斯函数。我们知道,音频信号可以看作是三角函数的叠加,即音频信号有如下表示（?）其中表示系数集合,表示频率集合。基于上面的结论,我们使用如下两组框架对音频信号进行逼近。高斯框架:（?）B样条框架:（?）这里nm （）表示次数为m,支集左端点坐标为n的B样条函数。这样我们就得到了逼近问题:若给定音乐信号,选用一组基Φn（）及相应系数n构造,使（?）用去逼近,考虑使用最小二乘法求解问题,即是（?）的解。经化简整理,将问题转化为求解方程组（?）得到n,进而求得。根据框架特点,当样条平移距离相差为2时,矩阵和对应的系数即为0,由此可知和均为带状矩阵,其带宽与局部的频率或音符数成正比,也与样条的阶数成正比。由于高斯函数是速降函数,因此高斯框架形成的和也近似为带状矩阵。用ij和ij分别表示上式算得到的矩阵和的第行第列元素,对元素重新排列,使之具有如下形式（?）由和是带状矩阵,即知上述矩阵为带状矩阵。使用带状矩阵求解方法,可以提高计算速度。进一步,如果我们选用如下框架（?）则原逼近格式改写为（?）经化简整理,可得如下块状周期三对角矩阵（?）可以使用两参数法快速求解。若将逼近函数变形,有（?）这里或者是高斯函数或者是B样条函数。则由上式,令（?）则（?）信号的振幅信息。将时间离散为N个时刻,即v,这样就得到了（）中每个频率在每一时刻的振幅,写成矩阵为（?）矩阵中的第k行表示在第k个时刻音频中每个频率的振幅值。理论上来讲,由单音旋律（任意时刻演奏的音符只有一个）生成的音频信号,经框架逼近后得到的振幅矩阵,其每一行应该只包含一个音符的振幅,也就是构成该音符的基频与泛音的振幅,该时刻不发声的音符所包含的频率的振幅都为零。由乐理知识我们又知道,基频与泛音的不同组合恰好是乐器发声的特质所在,是它可以与其他乐器区分开的标识。因此,如果我们知道某种乐器演奏每个音符时的频率构成,那么对于计算而得的中的行向量来说,其非零元素的组合就反过来对应一个音符,将每行对应的音符得到后,再对连续出现的音符统计其个数,这样就可以得到这段音频信号的音符与音符时长。再经过简单的逻辑转换,就可以得到乐谱。在未知规则的情况下,一种分类的有效工具是支持向量机（SVM）。SVM方法是建立在统计学习理论和VC维理论和结构风险最小原理基础上,根据小样本数据折衷模型复杂性和学习能力,希望达到最好的泛化能力的机器学习方法。由于每种乐器的音色特质,即音符对应的频率构成未知,因此需要我们建立训练数据输入到SVM中建立分类模型。中包含频率和振幅的每一行向量恰好是一个包含音符对应音频信息的特征向量,因此可以输入到SVM中进行训练。为了提高泛化能力,我们对训练音频进行多参数逼近,通过调整Fourier变换阈值,框架平移间距等得到同一音符的不同频率组合。数值实验显示,SVM能很好的识别单音旋律,每一时刻都被正确的分类到音频中出现的频率,没有非音频中的频率被识别出来,因此音符的识别率为100%。但是由于音频信号的衰减性质与弹奏时长的设定,在上一音符即将停止下一音符已经弹奏的这段交叉地带,会有音符得到更多分类情况发生,但所有的分类结果都保持分段常数的性质（即没有两种分类结果交替产生的情况）。与理论预期相比,在采样率为44100情形下时长误差在0.5%-1.6%之间,如果将采样率降低,不仅可以提高分类精度,而且对于拍速200之内的乐曲满足实时处理需求,可以达到输出乐谱需求。本文提出了一种新的逼近信号格式,通过从单一频率层面采集音频信息进而得到信号的精确逼近,统一了逼近格式,将复杂的时频分析转化成信号到矩阵的变换,结合机器学习方法对逼近格式进行检测,提高了自适应性、准确性和检测速度,为音乐自动转谱提供一种切实有效的方法。

论文目录

摘要

Abstract

第1章引言

第2章相关音乐背景

2.1 音乐的物理属性

2.2 乐理基础

第3章框架理论

3.1 框架理论的提出和发展

3.2 稳定基的构造

3.2.1 B 样条函数

3.2.2 高斯函数

第4章音乐信号的分析与逼近

4.1 第一种逼近模型

4.1.1 B 样条函数

4.1.2 高斯函数

4.1.3 快速算法

4.2 第二种模型

4.2.1 B 样条函数

4.2.2 快速算法

第5章支持向量机（SVM）与单音旋律识别

5.1 逼近结果

5.2 振幅结果

5.3 支持向量机（SVM）

5.4 单音旋律识别

第6章结论

参考文献

作者简介

致谢

音乐信号框架逼近的快速算法和SVM识别单音旋律

论文摘要

论文目录

相关论文文献

猜你喜欢