论文摘要
随着计算机技术、网络技术和通讯技术的不断发展,图像、视频、音频等多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式,其中音频信息占有很重要的地位。原始音频数据是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,给音频信息的深度处理和分析工作带来了很大的困难。如何提取音频中的结构化信息和内容语义是音频信息深度处理、基于内容检索和辅助视频分析等应用的关键。音频分类技术是解决这一问题的关键技术,是音频结构化的基础。本文在认真总结前人研究成果的基础上,研究了音频结构、音频特征分析与抽取、基于支持向量机的音频分类器和如何确定径向基内核的最佳参数。着重讨论了径向基参数对分类器结果的影响,并提出了基于支持向量机的集成学习分类器算法(ESL-SVM)。本文工作和研究方向主要包括以下几个方面:1.研究了音频的短时处理技术,在此基础上分析了音频的语义内容,引用了不同层次音频结构单元的定义。详细说明了音频分类技术的基本原理,描述了音频分类的流程图。2.从音频帧层次和音频段层次上深入研究了不同类别音频之间的区别性特征,并分别提取相关的特征,通过加权的方式取得特征集。深入研究了支持向量机的原理和分类器的构成,并研究了如何用交叉检测和网格查询的方法确定径向基内核的最佳参数。3.深入研究了径向基参数对分类器结果的影响,在此基础上引入了集成学习的思想,提出了基于支持向量机的集成学习分类器算法(ESL-SVM)。分类器算法是实现音频分类的核心问题,论文通过实验数据证明了ESL-SVM算法的有效性。