基于SAPI引擎的文本编辑工具中语音命令的应用研究

论文摘要

语音识别是近半个世纪发展起来的新兴学科，它能使计算机“听懂”人的自然语。由识别得到的信息可作为声控信号应用到多种技术领域，在工业、军事、交通、医学、民用等各方面有广阔的应用前景，蕴有巨大的社会经济效益，它作为高新技术新产业开发受到了世界各国的重视。语音是最符合人类自然习惯的一种通信方式。随着语音识别技术的发展，它在人机接口和多媒体方面的应用也越来越普遍了。在计算机的运算速度和存储能力迅速提高之后，输入输出的人机界面变得越来越重要，人机接口是当前计算机领域的热门课题之一。而语言是人类用来交流最自然、最有效的手段，也是众多载体中具有最大信息量的信号，具有最高的智能水平。一旦计算机具备了这种语言功能，其智能程度与应用价值将大大增加。因为在这种人机交互中使用的是最自然的语言方式来存储和处理信息，是人机交互的一次革命。本文主要是利用微软公司推出的MS Agent在SAPI引擎下进行的二次开发，实现在文本编辑工具(记事本、写字板、word等)中用语音来代替键盘操作，从而使得我们脱离键盘，达到人机交互。本文主要以记事本为例实现Agent动画人物对语音命令的识别和语音输出，即：当说出notepad后，系统即可识别，Agent动画人物以气泡的形式反应出open notepad，之后记事本打开，这时你可以说出open file、print、help等等所有记事本上的命令按钮，这些命令都显示在what can I say对话框中，可以查看这个对话框说出你所想要的语音命令。本文除了可以识别语音命令外，还能够识别26个英文字母和一些简单的英文单词，并且把识别的结果显示在记事本的编辑区中。

论文目录

摘要

Abstract

1 绪论

1.1 语音识别概述

1.1.1 语音识别研究的背景和意义

1.1.2 语音识别的应用

1.2 语音识别系统简介

1.3 语音识别发展的历史和现状

1.3.1 语音识别发展过程

1.3.2 语音识别的现状与问题

1.4 本课题的研究内容

2 MS Agent技术和SAPI引擎概述

2.1 MS Agent的特点

2.1.1 office助手

2.1.2 MS Agent

2.2 MS Agent的用户界面

2.2.1 动画人物

2.2.2 任务条图标

2.2.3 文字气球和输入提示条

2.2.4 命令窗口

2.3 获取MS Agent

2.4 MS Agent应用场合

2.4.1 WEB应用

2.4.2 软件帮助系统和辅助工具

2.4.3 教育软件

2.5 语音合成技术（Text-To-Speech,TTS）

2.6 语音识别技术（Speech Recognition Engines,SRE）

2.7 MS Agent人机交互模式和和对象模型

2.7.1 采用MS Agent后的人机交互模式

2.7.2 MS Agent对象模型

2.8 SAPI的结构和工作原理

2.8.1 SAPI的结构

2.8.2 SAPI工作原理

3 COM和OLE编程

3.1 OLE编程的基础知识

3.2 COM技术的基础知识

3.2.1 COM的概念与特性

3.2.2 COM对象与接口

3.2.3 COM组件开发流程

3.3 与COM技术相关的几项技术

3.3.1 ActiveX技术

3.3.2 DCOM技术

4 语音命令在文本工具中实现的设计方案

4.1 系统开发的两种模式

4.1.1 事件驱动模型

4.1.2 交互式开发

4.2 系统设计平台

4.3 系统的结构

4.3.1 总体设计思想

4.3.2 驱动流程设计

4.4 以消息机制实现语音驱动

4.5 提高系统的识别率

4.6 动画角色的装载和语音模式的选择

4.6.1 语音模式（TTS MODE）的选择

4.6.2 动画角色的装载和显示

4.7 VC程序调用MS Agent的基本方法

4.8 添加自定义命令方法

4.9 在语音命令文本中的具体实现

4.10 语音识别使用中应注意的问题

5 结论

参考文献

在学研究成果

致谢

基于SAPI引擎的文本编辑工具中语音命令的应用研究

论文摘要

论文目录

相关论文文献

猜你喜欢