论文摘要
随着计算机科学技术的快速发展,计算机信息的处理和判断能力进步迅速,但计算机与人类信息交流却进步较小,使得信息瓶颈问题日益严重。语音技术作为人机接口的重要技术之一,经历了半个多世纪的发展,涌现了许多重大的技术突破。在语音识别、说话人识别和语音合成等诸多领域,已经产生了大量的进入实际应用水平的商业化产品,对社会带来了巨大的变化。但是,现有语音系统在面对实际应用环境时还存在着某些限制。因此,对于人类听觉系统的性质研究,具有非常重要的意义和价值。现有的对听觉系统的大量抗噪性特性研究中,可以按照自下而上和自上而下的分析过程分为两个大类。自下而上分析过程是信号处理系统的基本功能,对声音信号的基本物理特征进行分析和归类;自上而下分析过程则是按照人的意识、注意力和经验等对声音信号的处理进行指导。其中后者作为人类听觉系统和人工系统最显著的区别,是当今听觉研究的热点领域。本研究从三个不同的方面,揭示了人类听觉系统的两个过程中的某些特性。第一个研究通过心理声学实验,发现了人类听觉系统在进行说话人识别过程中,遵循着类似信息论的信息编码方式,而且受到了语言环境的训练带来的影响。第二个研究则通过同样的方式,揭示出人类在进行说话人识别过程中,不同与现有的技术模型,利用了词汇及更长时间尺度上的连续信息。在第三个研究则揭示了在对语音信号分析过程中,除了存在现有理论揭示的分析过程外,还可能存在基于频谱包络结构这样的高级特征作为辅助,更加增强了在某些特殊环境下(如耳语环境)中的识别能力。