论文摘要
随着网络技术和存储技术的发展,以及多媒体应用的普及,互联网上音频数据的数量迅速增长。广播、音乐、电影/电视伴音、教学录音等音频资源目前都可以通过互联网获取。如何有效地对这些音频资源进行组织和管理,使人们能够方便地找到所需要的音频片段已经成为一个迫切的需求。基于内容的音频分割和分类技术是音频索引和检索的基础,它可以应用于基于内容的音频检索、音频监控、音频转录、音频内容理解等领域。在音频分割方法方面,对DISTBIC提出了若干改进。如果一个候选分割点的BIC差值为负,DISTBIC就会将其从候选分割点集合中移除,这种做法过于激进,会造成真实分割点的丢失。针对这一问题设计了一种新的BIC确认方法,该方法使候选分割点有多次机会被确认。DISTBIC在对候选分割点进行BIC确认时,惩罚因子采用一个固定值,这个值过大会导致分割方法准确率高、查全率低,过小则会导致准确率低、查全率高。针对这一问题,提出一种惩罚因子自适应方法以提高分割方法在准确率和查全率两方面的综合性能。在音频分类方面,通过互相关和信息增益两种算法进行特征选择,使用二叉树音频分类方法将音频分为音乐、纯语音、环境音、非纯语音和静音五种类型。实验结果表明,提出的改进算法有效地提高了音频分割方法的综合性能,大大降低了分割方法对惩罚因子的敏感度,使其在实际使用中更容易达到最佳性能。实验结果还表明特征选择能够在降低特征维度的同时提高分类任务的识别率。