论文摘要
语音识别是近半个世纪发展起来的新兴学科,它能使计算机“听懂”人的自然语。由识别得到的信息可作为声控信号应用到多种技术领域,在工业、军事、交通、医学、民用等各方面有广阔的应用前景,蕴有巨大的社会经济效益,它作为高新技术新产业开发受到了世界各国的重视。语音是最符合人类自然习惯的一种通信方式。随着语音识别技术的发展,它在人机接口和多媒体方面的应用也越来越普遍了。在计算机的运算速度和存储能力迅速提高之后,输入输出的人机界面变得越来越重要,人机接口是当前计算机领域的热门课题之一。而语言是人类用来交流最自然、最有效的手段,也是众多载体中具有最大信息量的信号,具有最高的智能水平。一旦计算机具备了这种语言功能,其智能程度与应用价值将大大增加。因为在这种人机交互中使用的是最自然的语言方式来存储和处理信息,是人机交互的一次革命。本文主要是利用微软公司推出的MS Agent在SAPI引擎下进行的二次开发,实现在文本编辑工具(记事本、写字板、word等)中用语音来代替键盘操作,从而使得我们脱离键盘,达到人机交互。本文主要以记事本为例实现Agent动画人物对语音命令的识别和语音输出,即:当说出notepad后,系统即可识别,Agent动画人物以气泡的形式反应出open notepad,之后记事本打开,这时你可以说出open file、print、help等等所有记事本上的命令按钮,这些命令都显示在what can I say对话框中,可以查看这个对话框说出你所想要的语音命令。本文除了可以识别语音命令外,还能够识别26个英文字母和一些简单的英文单词,并且把识别的结果显示在记事本的编辑区中。
论文目录
摘要Abstract1 绪论1.1 语音识别概述1.1.1 语音识别研究的背景和意义1.1.2 语音识别的应用1.2 语音识别系统简介1.3 语音识别发展的历史和现状1.3.1 语音识别发展过程1.3.2 语音识别的现状与问题1.4 本课题的研究内容2 MS Agent技术和SAPI引擎概述2.1 MS Agent的特点2.1.1 office助手2.1.2 MS Agent2.2 MS Agent的用户界面2.2.1 动画人物2.2.2 任务条图标2.2.3 文字气球和输入提示条2.2.4 命令窗口2.3 获取MS Agent2.4 MS Agent应用场合2.4.1 WEB应用2.4.2 软件帮助系统和辅助工具2.4.3 教育软件2.5 语音合成技术(Text-To-Speech,TTS)2.6 语音识别技术(Speech Recognition Engines,SRE)2.7 MS Agent人机交互模式和和对象模型2.7.1 采用MS Agent后的人机交互模式2.7.2 MS Agent对象模型2.8 SAPI的结构和工作原理2.8.1 SAPI的结构2.8.2 SAPI工作原理3 COM和OLE编程3.1 OLE编程的基础知识3.2 COM技术的基础知识3.2.1 COM的概念与特性3.2.2 COM对象与接口3.2.3 COM组件开发流程3.3 与COM技术相关的几项技术3.3.1 ActiveX技术3.3.2 DCOM技术4 语音命令在文本工具中实现的设计方案4.1 系统开发的两种模式4.1.1 事件驱动模型4.1.2 交互式开发4.2 系统设计平台4.3 系统的结构4.3.1 总体设计思想4.3.2 驱动流程设计4.4 以消息机制实现语音驱动4.5 提高系统的识别率4.6 动画角色的装载和语音模式的选择4.6.1 语音模式(TTS MODE)的选择4.6.2 动画角色的装载和显示4.7 VC程序调用MS Agent的基本方法4.8 添加自定义命令方法4.9 在语音命令文本中的具体实现4.10 语音识别使用中应注意的问题5 结论参考文献在学研究成果致谢
相关论文文献
标签:语音识别论文; 人机交互论文;
基于SAPI引擎的文本编辑工具中语音命令的应用研究
下载Doc文档