手语合成论文-张丹丹

手语合成论文-张丹丹

导读:本文包含了手语合成论文开题报告文献综述及选题提纲参考文献,主要关键词:维吾尔手语,手语动画,unity3d引擎,自然语言处理

手语合成论文文献综述

张丹丹[1](2018)在《基于维吾尔文本的手语动画合成》一文中研究指出目前,世界上存在着数目众多的聋哑人,作为聋哑人的母语—手语,并没有被广大群众学习和使用。同时信息的主流存储媒介是自然语言文字,对于未接受非聋哑人教育的聋哑人来说理解困难,同时手语本生也存在地域性等特点。这些原因都限制了聋哑人接受新知识,服务社会,实现自我。虽然,汉语的手语动画合成系统已经有了不错的发展,但是,这些新方法不能直接应用到维吾尔手语动画系统中来。维吾尔手语由于主要由新疆地区的维吾尔聋哑人使用,且新疆地区的资源有限,所以开发一套维吾尔手语动画合成系统,帮助聋哑人接受新信息,使得聋哑人可以多方位的获取信息,提升自身的内在修养,更好的享受生活,对于社会和聋哑人都有着重大意义。随着虚拟现实技术的逐步繁荣,大量学者逐渐将虚拟现实技术应用到手语动画合成中来,同时叁维游戏引擎的日趋成熟也给手语动画合成提供了新的工具和方向。本文在对比目前国内外流行的引擎后,根据维吾尔手语手语动画合成的需要,选择untiy3d作为系统的开发引擎,主要利用unity3d中的动画状态机来实现维吾尔手语的连续播放。unity3d状态机中的动画在一般情况下并不能进行更改,本文利用unity3d已有的功能和组件开发出在已有状态机的基础上连续播放手语动画的算法。同时结合已有的手语动画库和自然语言处理技术开发出一款手语维吾尔手语合成系统。(本文来源于《新疆大学》期刊2018-06-01)

陶然[2](2017)在《手语合成系统的研究与实现》一文中研究指出随着互联网技术的飞速发展,手语教学的方式目前还停留在传统的课堂上由手语老师根据手语教材大纲授课的方式。这种授课方式受限于上课时间和授课地点,以及手语教师资源严重匮乏,使得学习手语不仅成本高而且效率低,导致我们在学习手语过程中遇到了瓶颈,在“互联网+”的时代,为了让互联网技术更好的改善我们的生活,同时为了给需要进行手语学习的人群带来更多的便利,本文设计了一款基于互联网技术的手语合成系统,系统主要功能为对用户的语音进行语音识别,并将识别结果以手语视频的形式展示在屏幕上,并且另外配有手语视频库的采集系统以及后台管理系统,使得需要学习使用手语的用户或者想与聋哑人进行交流的用户,只需要一台联网的电脑即可实现。整个系统分为客户端和服务器端,客户端分为手语合成系统和手语采集系统,服务器端是后台管理系统,其中客户端的界面采用了对Qt进行封装之后的PyQt4框架来实现,对程序进行了模块化处理,主要有语音识别模块、文字分词模块的实现、利用ffmpeg技术进行视频的合成、opencv录制视频的实现。服务器端采用的是基于Python的Django框架,定义基于Restful的接口来提供与客户端通信的接口,实现数据库的可视化管理以及对CDN技术的使用。本论文按照以下顺序来对系统进行论述。第一章是绪论,介绍了课题研究的背景与意义,课题研究前需要考虑的问题,论文的主要工作,以及论文的组织结构。第二章对项目开发中涉及到的关键技术进行了研究,包括比较了几种客户端开发框架,对科大讯飞的SDK的使用进行了详细介绍并且讲述了 Python调用DLL文件的实现,分词的实现、ffmpeg技术的介绍,服务器开发关键技术的研究,详细阐述了 Django框架,网络编程以及数据库,CDN技术,七牛云SDK的使用。第叁章详细分析了手语合成系统和手语采集系统的设计过程和实现原理,从需求分析到模块划分,然后详细介绍了具体设计流程。第四章主要讲述了后台管理系统的设计与实现,首先进行了需求分析与模块划分,对服务器架构进行了设计,数据库的设计,数据库可视化的实现,CDN技术的使用,以及为后端的接口编写了单元测试。第五章进行了系统测试,分别对系统客户端和服务器端进行了测试。第六章对论文做了总结与展望。(本文来源于《北京邮电大学》期刊2017-12-01)

陈家旭[3](2017)在《基于视频拼接的中国手语合成关键技术研究》一文中研究指出手语通过手形和位置的组合变化来传递信息与表达语义,是听障人群的主要沟通工具。手语合成就是把自然语言翻译成手语的技术,为听障人与正常人之间的沟通搭起了桥梁。基于视频拼接的手语合成就是将手语数据库中的手语词视频按输入文本拼接成新的手语视频。由于待拼接的视频片段,可能存在动作差异。为了得到更自然流畅的合成手语,需要生成中间过渡帧自然过渡前后手语动作。现有的依赖于过渡形态库的中间过渡帧生成方法,需要大量的人工工作。因此,设计更自动化的过渡帧生成算法具有重要的研究价值和应用价值。本文基于对手语运动特点的分析,利用Kinect设备采集数据,重新设计了手语合成数据处理方案,并重点研究其中的过渡帧生成算法。本文提出的手语合成基于Kinect采集颜色信息、深度信息、骨架信息构建手语视频数据库,先经过预处理得到过渡帧数和骨架过渡路径,再联合网格形变和图像插补算法生成中间过渡帧,从而得到最终合成的手语视频。本论文主要的研究内容如下:1、研究手语视频数据预处理。作为过渡帧生成的准备工作,预处理包括对输入的文本分词,选择最佳拼接位置,估计过渡帧数以及计算骨架过渡路径,得到的结果将输入到后续过渡帧生成模块。2、研究网格形变算法。手语词视频的中间过渡帧应该符合人体运动规律。为了使形变更好地模拟动作变化的过程,提出一种局部控制的近似刚性形变算法,即在传统的形变能量中加入稀疏位移约束和平滑约束,构建具有近似刚性、局部性、平滑性和形状感知性的形变模型,并用"局部-全局"迭代算法求解。利用预处理得到的过渡骨架对待拼接手语视频帧作形变操作,得到的前向和后向形变序列作为后续图像插补操作的输入。3、研究图像插补算法。因为形变只是针对单源视频帧的操作,为了使过渡帧在符合人体运动规律的同时表现信息的过渡过程,本论文提出一种形变辅助的图像插补算法。利用形变得到的前向和后向形变序列,考虑源相似性和时间相关性,设计一种迭代优化策略进行图像插补。为了更好地保留图像细节,综合利用颜色和梯度距离度量图像块的相似性。最终融合前向和后向形变序列,得到合成手语的中间过渡帧。本论文在手语视频数据上验证了所提出的合成算法的性能,结果表明使用本论文的算法能够自动地合成平滑并且真实的手语视频。(本文来源于《中国科学技术大学》期刊2017-05-01)

高明[4](2015)在《基于多线索的中国手语动画合成》一文中研究指出手语作为一种视觉/手势语言,通过手势和肢体的空间运动传递信息,是听力缺陷者与外界交流最自然的方式。手语合成的主要目的是研究准确并且具有普适性的表现手语的方法,使听力缺陷者能够更方便地理解和传达信息,帮助他们融入主流社会。随着叁维虚拟人技术的逐渐成熟,基于虚拟人的手语表现方法成为手语合成的主要研究方向,受限于中国手语以及自然语言处理等相关技术的发展水平,文本驱动的中国手语合成无法准确表达面部表情等非手势信息,在一定程度上影响了合成效果,提升手语合成的可懂度和真实感成为了一个重要课题。为了实现更具真实感的中国手语动画合成,在手语表达中增加面部表情信息是必要的,本文以实现多媒体信息驱动的带表情的手语合成动画为目标,研究基于多线索的中国手语动画合成方法。本文利用输入信息中的视频分量计算相应手语表达中的人脸表情。基于视频图像序列计算脸部特征点的位置以及运动信息,结合MPEG-4标准的定义,计算得到对应叁维虚拟人脸部运动参数序列,进而驱动叁维人脸表情生成;由于手语表达是一个多模式协同表达的过程,而通过视频得到的面部表情和经过文本处理得到的手势动作是两个相互独立的动作序列,为实现二者的协同表达,本文对语音信号进行处理,结合文本数据实现语音文本对齐,得到对应面部表情的时间信息,配合已得到的手势动作数据,通过插值方法实现手部动作和面部表情的协同展示,最终合成多模式协同表达的中国手语动画;最后在机顶盒环境下实现手语动画的原型系统。(本文来源于《北京工业大学》期刊2015-06-01)

朱婷婷[5](2014)在《叁维信息辅助的中国手语视频合成方法研究》一文中研究指出在中国有大量听障人群,手语是他们进行交流的语言。手语运用空间运动表达语义,是一种视觉空间语言。基于计算机合成的中国手语视频,具有较强的真实感和较好的可接受程度,其视觉语言表达界面更为形象生动,能够更好的服务听障人群,使他们能够与健听人一起感受高速发展的文明,具有极其广泛的社会意义。基于计算机合成手语视频时,若干手语词视频片段按照文本语法规则重新组合成新的手语视频,而时间轴上相邻的手语词视频片段在运动轨迹、手势等方面存在视觉差异,因此需要插入过渡视频帧以增强真实感。过渡视频帧的获得有两个途径,检索预先设定的视频帧数据库或者通过拼接图像块进行合成,前者要求采集任意两个可能邻接的手语词视频间的过渡数据,对数据采集和存储要求过高,因此合成过渡视频帧是实现基于视频手语合成的重要基础工作。本文针对中国手语视频拼接中的过渡视频帧合成问题,以片段平滑过渡为目标,研究手语视频片段间的过渡帧合成方法。本文利用3D模型借助已有的3D中国手语数据生成手势图像并将其与其它图像块进行拼接生成过渡视频帧,主要研究内容如下:1.基于一般化手模型构建与待拼接手语视频一致的3D手模型:已有的可使用3D中国手语数据驱动的虚拟人手摸型投影得到的手部图像与待拼接视频中手部图像的比例不完全相同,为得到真实感较好的手势投影图像,需要对已有3D手模型进行调整。本文根据已有叁维虚拟手模型的结构设计特征点选取方案,通过标注校准特征点的二维坐标,利用基于高斯分布的非刚性物体重构方法计算特征点的叁维信息并据此调整叁维手模型的比例使其投影图像比例与待拼接手语视频中手部图像比例一致。2.手语视频过渡帧合成:前述构建的手部模型经数据驱动后在生成过渡视频帧所需的手势投影图像时,手部图像的纹理及各图像块间的纹理融合是影响合成手语视频过渡帧视觉效果的重要因素。本文针对投影手势图像的纹理映射提出基于模板图的手纹理合成方法,针对图像块间的纹理融合利用基于区块和梯度的图像融合方法对手势投影图像与胳膊和躯干图像进行无缝融合,生成真实感较强的过渡视频帧。3.中国手语视频合成原型系统实现:根据手语视频合成系统的数据需求,对采集到的原始手语视频进行预处理,构建手语视频库,主要包括按照手语词词典切分成手语词视频片段,标注视频语义信息、建立胳膊形态库等。在上述理论的基础上,重点实现了叁维手模型重构模块、过渡帧生成及手纹理优化模块,结合文本分词模块、估计运动轨迹模块、解析渲染叁维手模型模块和合成手语视频模块,实现中国手语视频的合成。(本文来源于《北京工业大学》期刊2014-06-01)

王森[6](2013)在《语音文本驱动的中国手语动画合成》一文中研究指出为了帮助聋人更好地融入正常人的社会,改变他们的弱势地位,越来越多的研究人员参与到手语的研究领域中。近年来,一种通过合成虚拟人手语动画的方法被提出来,便于聋人通过观看手语动画理解和接收信息。而要合成更具真实感和可懂度的手语动画,实现手语表达中的韵律信息是必要的。同语音中的韵律信息在语言表达中起的作用一样,手语中的韵律能够提高手势的表达能力,提供额外的辅助理解的功能。在合成手语时,除了提供必须的用于表达语义的文本信息外,还需要得到手语表达所需的韵律信息。本文从语音中的韵律信息入手,考虑使用语音表达中的丰富韵律信息,将其映射转换至手语韵律参数,从而得到具有韵律信息的手语动画。在本文中,为了提取出语音中的韵律信息,针对汉语中韵律表达的特点,选取了基本声学参数中的音节时长,音强和音高参数。音节的时长通过采用基于汉语元音的端点检测方法,划分出各个音节的边界;音强则在此基础上用其短时能量来表示;对于音高的计算,则通过使用倒谱法估计出其基音频率得到。本文利用这几个基本的声学参数,构造出了一个用于识别强调韵律的特征向量,并使用其训练不同韵律模式的隐马尔科夫模型(HMM)。为了提高训练出的模型的鲁棒性,考虑人耳感知强调韵律的特性,采用了一系列相对值用于构成该向量。通过HMM识别出的韵律模式和得到的相关参数,将其映射转换到手语表达的韵律参数,就能直接用于合成中国手语动画。从语音韵律到手语韵律的映射,采用了中国手语标记语言(CSLML)对其进行描述。最后本文在机顶盒平台上实现了一个伴随电视节目播放而同时播放中国手语动画的系统,能够有效地帮助聋人观看电视节目,接收社会信息。(本文来源于《北京工业大学》期刊2013-06-18)

卢荣[7](2013)在《改进的粒子滤波算法在手语合成中的应用研究》一文中研究指出伴随着社会文明程度的提高,信息无障碍的研究与发展备受瞩目。其中针对聋哑人的手语识别技术研究得到了社会越来越多的关注。手语作为聋哑人之间最基本的交流方式,为社会上的弱势群体如聋人和正常人之间的交流和沟通提供了一个很好的平台,让他们能够像正常人一样得到整个社会方便快捷的服务,因此作为手语中关键的手语识别技术和合成的技术显得尤为重要,而且手语技术的发展也是今后社会文明程度进一步提高的关键。本文详细地介绍了手语合成的发展历程和研究现状,并在视频拼接的手语合成基础上,通过数据手套等数据采集设备,深入探讨了人体建模和人体关键点的运动跟踪的常用算法。通过对手语视频合成中的过渡帧的构建来提高手语合成的真实度,综合比较了常见人体运动跟踪的优缺点及存在的改进方法。并重点研究了粒子滤波算法及其存在的局限性,在分析其本身及研究目前现有的目标跟踪算法的基础上,提出了光流相结合的粒子滤波算法,对手语视频合成中人体关节点的目标跟踪与识别提供了数据基础。在3ds Max和VC++6.0搭建的实验平台下,通过插件的方式实现了本文提出的改进算法。在普通PC机相同的条件下,分别用传统粒子滤波算法和本文的改进算法进行实验,经过对比,利用光流驱动的粒子滤波算法比传统粒子滤波方法跟踪手语视频中的腕部位置不会因为手部移动速度过快而出现了明显的跟踪错误,保证了目标跟踪的准确性,实验论证了本文提出的改进算法的实用价值。最后,对人体关键点的跟踪结果进行了分析,通过本文提出的过渡帧判断机制和融合机制进行了最后一步的手语合成,实验验证,基于过渡视频库拼接的手语合成其合成效果高于直接拼接。(本文来源于《兰州理工大学》期刊2013-05-13)

张沙沙[8](2013)在《语音手语合成系统研究与开发》一文中研究指出聋哑人作为社会的弱势群体,在生活、学习、娱乐方面由于受到沟通语言的限制,可使用的资源非常少。手语作为聋哑人之间沟通、交流的主要语言,需要得到更加规范化的推广。随着社会信息化的发展,建立一个健全人与聋哑人之间的沟通桥梁,变成一个极为迫切的需求。本文即在这样的大背景下产生。本文主要做了以下几方面的工作:语音识别方法的研究,包括对传统算法的研究,已有语音识别引擎SDK的研究,最终选用SDK的方式,实现系统的语音识别功能。中文语义分析的实现。本文使用中科院的HHMM模型,并对其词典存储方式做了改进,实现了系统的语义分析功能。虚拟人建模的实现。本文分析了人体运动的基本情况,对关节的运动约束做出了总结,通过学习不同的虚拟人建模方法,例如H-ANIM标准、建模软件等等,最终建立了系统所需的虚拟人模型。虚拟人运动控制,本文分析了不同的虚拟人运动控制方法。学习并改进了基于HAL链的实时逆向运动学求解算法,解决了肘圆问题。并对虚拟人运动中的手语连音问题做了一定处理,使虚拟人的手势表达与实际更相符合。提出了一套新的虚拟人手部动画的演绎方式,并根据关节自由度的不同情况使用了不同的插值方法,使用本文提及的方式控制虚拟人,不需要存储大量虚拟人运动的片段,更加灵活。在本文最后,对基于上述方法的系统做出了实现,并且从多个方面对系统的性能做出了评估。本系统在实用性方面来讲,是首个将中文语音与手语合成相联系的系统,将健全人与聋哑人的沟通变为可能,增加了可供聋哑人使用的社会资源,在创新性方面来讲,本文具有很强的灵活性,虚拟人的运动完全由程序控制,只需要插入词根的关键帧,将程序员从大量繁琐的姿势数据中解放,同时虚拟人手势合成过程中,本文对连音现象进行了处理,使得手势更加逼真。本文无论在实际上还是在理论上,都有很重要的意义。(本文来源于《西南交通大学》期刊2013-05-01)

侯建元[9](2012)在《基于虚拟人技术的手语合成研究》一文中研究指出聋哑人与健听人用口语进行交流是十分困难的。目前,我国的书籍、报纸、电视新闻等种种传播媒介,都是以书面文字和口头语言这类形式出现的,很少有用聋哑人最为熟悉的手语来进行表达。因此,有必要研究一种手语合成技术能将自然语言转换成逼真、流畅的手语表达形式,这将为聋哑人群体获取与健全人同样的信息资源以及实现无障碍交流等提供便利。手语合成即把自然语言转换成聋哑人手语,该手语借助虚拟人的动画演示的形式进行表达。本文主要分析和研究虚拟人运动数据获取、运动基本单元提取以及运动合成等关键技术,其主要研究成果如下:首先,本文基于动作捕捉设备采集人体运动数据构建运动数据源,并对采样数据进行修复,给出实验结果。其次,提出了一种骨骼夹角特征表示法和基于关键帧提取的运动数据切分算法。首先将复杂的人体动作数据用相邻骨骼段之间的夹角在时间维度上的变化曲线进行表达,然后根据“边界”数据帧的选取规则,选取曲线上极值点处的的数据帧作为候选关键帧建立关键数据帧集合,最后在提取关键帧的基础之上应用分层曲线逼近算法指导运动数据合理分段。再次,提出了运动单元的概念,阐述了运动单元在手语合成研究中的重要性。首先给出了运动单元的形式化定义,然后对分段后的运动数据采用加权动态聚类方法实现动作数据段的动态分类,最终实现运动单元的有效提取。最后,根据检索到的动作数据,基于上肢运动学理论计算出各关节的运动参数,最终设计并实现了借助获取的运动单元数据驱动虚拟人模型完成手语合成的演示系统。(本文来源于《天津理工大学》期刊2012-12-01)

李敬华,王立春,王振,孔德慧,尹宝才[10](2012)在《面向中国手语合成的口型与表情库构建》一文中研究指出为提高手语合成的真实感和可懂度,分析了手语表达中唇动和表情运动的特点,基于MPEG-4的参数化表达模型,提出了兼容于MPEG-4的口型和表情库构建方法,并基于该库完成了包含手势、唇动和表情的虚拟人手语动画.实验结果表明,包含唇动和表情的合成手语的真实感得到增强,进而说明了口型和表情库的有效性.(本文来源于《北京工业大学学报》期刊2012年11期)

手语合成论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着互联网技术的飞速发展,手语教学的方式目前还停留在传统的课堂上由手语老师根据手语教材大纲授课的方式。这种授课方式受限于上课时间和授课地点,以及手语教师资源严重匮乏,使得学习手语不仅成本高而且效率低,导致我们在学习手语过程中遇到了瓶颈,在“互联网+”的时代,为了让互联网技术更好的改善我们的生活,同时为了给需要进行手语学习的人群带来更多的便利,本文设计了一款基于互联网技术的手语合成系统,系统主要功能为对用户的语音进行语音识别,并将识别结果以手语视频的形式展示在屏幕上,并且另外配有手语视频库的采集系统以及后台管理系统,使得需要学习使用手语的用户或者想与聋哑人进行交流的用户,只需要一台联网的电脑即可实现。整个系统分为客户端和服务器端,客户端分为手语合成系统和手语采集系统,服务器端是后台管理系统,其中客户端的界面采用了对Qt进行封装之后的PyQt4框架来实现,对程序进行了模块化处理,主要有语音识别模块、文字分词模块的实现、利用ffmpeg技术进行视频的合成、opencv录制视频的实现。服务器端采用的是基于Python的Django框架,定义基于Restful的接口来提供与客户端通信的接口,实现数据库的可视化管理以及对CDN技术的使用。本论文按照以下顺序来对系统进行论述。第一章是绪论,介绍了课题研究的背景与意义,课题研究前需要考虑的问题,论文的主要工作,以及论文的组织结构。第二章对项目开发中涉及到的关键技术进行了研究,包括比较了几种客户端开发框架,对科大讯飞的SDK的使用进行了详细介绍并且讲述了 Python调用DLL文件的实现,分词的实现、ffmpeg技术的介绍,服务器开发关键技术的研究,详细阐述了 Django框架,网络编程以及数据库,CDN技术,七牛云SDK的使用。第叁章详细分析了手语合成系统和手语采集系统的设计过程和实现原理,从需求分析到模块划分,然后详细介绍了具体设计流程。第四章主要讲述了后台管理系统的设计与实现,首先进行了需求分析与模块划分,对服务器架构进行了设计,数据库的设计,数据库可视化的实现,CDN技术的使用,以及为后端的接口编写了单元测试。第五章进行了系统测试,分别对系统客户端和服务器端进行了测试。第六章对论文做了总结与展望。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

手语合成论文参考文献

[1].张丹丹.基于维吾尔文本的手语动画合成[D].新疆大学.2018

[2].陶然.手语合成系统的研究与实现[D].北京邮电大学.2017

[3].陈家旭.基于视频拼接的中国手语合成关键技术研究[D].中国科学技术大学.2017

[4].高明.基于多线索的中国手语动画合成[D].北京工业大学.2015

[5].朱婷婷.叁维信息辅助的中国手语视频合成方法研究[D].北京工业大学.2014

[6].王森.语音文本驱动的中国手语动画合成[D].北京工业大学.2013

[7].卢荣.改进的粒子滤波算法在手语合成中的应用研究[D].兰州理工大学.2013

[8].张沙沙.语音手语合成系统研究与开发[D].西南交通大学.2013

[9].侯建元.基于虚拟人技术的手语合成研究[D].天津理工大学.2012

[10].李敬华,王立春,王振,孔德慧,尹宝才.面向中国手语合成的口型与表情库构建[J].北京工业大学学报.2012

标签:;  ;  ;  ;  

手语合成论文-张丹丹
下载Doc文档

猜你喜欢