嵌入式双模态车载语音指令识别系统的研制

论文摘要

在现实的汽车驾驶中,驾驶者经常要将手离开方向盘去控制各种设备,这显然给了汽车安全驾驶埋下安全隐患。将智能语音控制技术应用于车载领域,将改变汽车现有的人机信息交流方式,解放驾驶者的双手和双眼,使汽车具备更人性化魅力,体现个性化特色,提高驾车安全性。然而,虽然目前在实验环境中,语音识别技术已经具有很高的识别率,但是在实际车载的路况中,有来自马路环境、轮胎、引擎等各方面的噪声,导致语音识别率的急剧下降。噪声环境下单独依靠音频信息所得到很低的识别率,制约了车载语音控制的实际应用和发展。利用视觉信息辅助语音识别能够提高噪声环境下的语音识别系统的识别率。双模态语音识别系统采用的做法是,将音频视频信息相结合,通过加入检测视频特征,将语音识别和唇语识别相结合(我们称之为双模态识别),来提高在实际路面强噪声情况下的语音识别率。为了加快双模态车载语音控制系统的研发和实现,本文构建了一个嵌入式系统,重点在PC机平台上实现了一个双模态车载语音识别系统,为嵌入式双模态车载语音控制系统最终应用于实践提供了重要的基础。本文的主要工作有如下5点:(1)建立了一个适用于双模态车载语音控制系统的嵌入式Linux系统平台,并且为了能支持多款USB摄像头设备、增强适用性,修改了bootloader还有Linux内核中的分区大小,以便把更多的USB摄像头驱动编译进内核、支持更大的内核。(2)研究了一款在Linux系统下比较新的IDE软件开发平台“Qt Creator”,以及如何搭建一个嵌入式Linux软件开发环境。使用Qt Creator进行嵌入式Linux软件开发,将会大大便利于开发人员进行软件开发,并且加快软件开发的速度。(3)在PC机平台上设计并实现了一个基于Linux的双模态车载语音在线识别系统。系统由下面几个模块组成:识别器管理模块、语音采集模块、视频采集模块、语音特征提取模块、视频特征提取模块(由唇动定位模块、唇动特征提取模块组成)、识别模块、GUI模块。该系统以多线程的方式实现,每个模块都是一个单独的线程,以提高系统的处理效率。语音采集模块,是通过Linux的ALSA提供的API编程实现的。而视频采集模块,是通过Linux的V4L2(Video for Linux 2)提供的API编程实现的。在唇动定位模块中,先进行人脸检测,然后再通过边缘检测等手段定位到嘴唇。对于视频图像格式的转换,本设计对其算法进行了优化,并介绍了几种优化的算法,并且对唇动定位模块等进行了一定的优化。(4)研究了基于多色彩空间的自适应嘴唇区域定位算法[1],并对其缺陷进行了分析,提出了一种唇动检测算法。先通过Adaboost算法进行人脸检测,然后再通过边缘检测等方法定位到嘴唇,并对其进行了优化和提高了正确率。(5)对本系统的实验结果及性能进行评估和讨论。各个模块能够正常工作,而且它们之间能正确地进行数据的传递。对于本文提出的唇动定位方法,实验结果显示,该方法的正确率能达85%以上。

论文目录

摘要

Abstract

第一章绪论

1.1 研究背景及意义

1.2 研究现状

1.2.1 双模态语音识别的研究现状

1.2.2 语音识别在车载设备上的应用现状

1.3 论文完成的主要工作

1.4 章节安排

第二章双模态语音识别嵌入式系统的构建

2.1 交叉编译环境的建立

2.2 bootloader 介绍及移植

2.2.1 bootloader 介绍

2.2.2 bootloader 的启动流程

2.2.3 bootloader 移植

2.3 Linux 内核移植

2.3.1 Linux 内核源码目录布局介绍

2.3.2 Linux 内核裁减及移植

2.4 文件系统移植

2.4.1 Linux 各种文件系统介绍

2.4.2 Qt 介绍

2.4.3 文件系统制作及移植

2.5 本章小结

第三章双模态语音识别系统软件设计方案

3.1 软件开发环境

3.2 功能模块概要设计

3.3 软件架构设计

第四章功能模块的详细设计

4.1 语音采集模块

4.1.1 语音采集流程

4.1.2 基于ALSA 的音频采集

4.2 视频图像采集模块

4.2.1 视频图像采集流程

4.2.2 基于V4L2 的USB 摄像头图像采集

4.2.3 YUV2 转RGB24 图像算法及优化

4.3 语音特征提取模块

4.4 唇动定位模块

4.4.1 基于多色彩空间的自适应嘴唇区域定位算法

4.4.2 结合人脸检测的唇动定位算法

4.4.3 唇动定位的性能分析及优化

4.5 唇动特征提取模块

4.6 视频特征提取模块

4.6.1 工作流程

4.6.2 音视频同步处理

4.6.3 视频插帧

4.6.4 性能分析与优化

4.7 识别模块

4.7.1 双模态识别流程

4.7.2 特征文件格式

4.8 识别器管理模块

4.9 GUI 模块

4.10 本章小结

第五章双模态语音指令识别系统的性能评估

5.1 测试目的

5.2 测试内容

5.3 测试方法

5.4 测试结果及分析

第六章总结与展望

6.1 总结

6.2 未来展望

参考文献

致谢

答辩委员会对论文的评定意见

嵌入式双模态车载语音指令识别系统的研制

论文摘要

论文目录

相关论文文献

猜你喜欢