导读:本文包含了口型识别论文开题报告文献综述及选题提纲参考文献,主要关键词:口型识别,人脸检测,HSV颜色空间,深度学习
口型识别论文文献综述
秦正鹏[1](2018)在《基于深度学习方法的口型识别技术的研究》一文中研究指出在语音识别当中,口型识别技术可以起到很好的辅助作用,该技术可以结合视觉通道和听觉通道的信息,相比于使用单独的听觉通道来进行识别效果更好。本文针对人脸检测、人眼检测、唇部分割和口型识别等口型识别系统中的主要问题进行了研究。本文首先提出了一种基于唇部复合特征(几何特征和像素特征)来逐步地精确定位唇部的方法,第一步先利用人脸五官特定的几何位置关系初步地定位唇部,然后在此区域中利用唇部在HSV颜色空间中的像素特征精确地定位到唇部,并且该方法可以适用于不同光照亮度条件下的检测。最后使用深度学习的方法提取唇部的特征,使用自建的汉语口型数据库训练出模型来完成口型识别的任务。实验结果表明,将该方法应用于孤立字的口型识别当中准确率很高,可以达到94%。(本文来源于《华北电力大学(北京)》期刊2018-03-01)
鄢黎[2](2016)在《基于HSV变换模型的静态口型识别算法的研究》一文中研究指出在日常的交流和学习生活中,人类对于语言的感知是从多个通道汇合而成的。既可以通过声音通道获取相应的语音信息,也可以通过视觉观察唇动信息来辅助对于语音信息的理解。因此,通过对唇动信息的捕获来研究口型识别是非常重要的,不仅可以改善在噪声和干扰环境下语音识别准确率低的缺点,解决聋哑人交流中无法发出声音的问题,还可以应用于多媒体系统、人机智能交互和身份识别等多个领域。最近几年里,随着人机交互这个领域的火热,许多科研人员提出了基于唇读技术的人机交互方式,发展成为一个新的研究方向。大部分研究学者的研究内容都是将语音识别和口型识别相结合,以期望达到更高的识别率和准确率。并且,在过去的研究中,语音识别相关领域突飞猛进发展迅速,已远远超过口型识别技术的研究。所以,这篇文章的目的是对口型识别过程中的关键算法进行研究同时建立一个对单个单词进行识别的口型识别模块,为后续与手势识别相结合共同辅助聋哑人交流作准备。为了实现口型识别,首要条件是对嘴唇进行准确的定位,唇部定位的精确程度直接决定了整个系统的识别率,因此是具有重要意义的一步。本文通过对图像中的目标进行人脸识别,眼球定位从而获取嘴唇区域的完整像素,进而对唇部特征进行提取和处理,最后达到孤立词识别的目的。在人脸识别阶段,采用肤色分割方法同时对各种常用颜色模型的优缺点进行了对比,发现了RGB和HSV颜色模型对红色区域较为敏感以及YCbCr颜色模型的边缘检测效果较弱,易将肤色像素判断为非肤色区域的缺点,而将HSV和YCbCr颜色模型结合起来进行肤色分割则可以得到较好的结果并且避免红色区域以及光照强度的影响。在人眼定位阶段,首先采用像素值灰度积分法快速地将人眼候选区域从人脸范围内截取出来,然后利用眼睛瞳孔是圆形这一特征,对人眼候选区域进行Hough圆扫描检测,定位到几何特征为圆形的眼球部位。在嘴唇提取阶段,对传统的HSV颜色空间进行了改进和变换,增强了嘴唇区域像素与周围像素点的对比度,使得嘴唇分割效果更为理想。在口型识别阶段,首先需要提取唇形的几何特征,对各个特征函数进行测试和加权处理,然后采用动态时间规整算法(DTW)将加权后的特征与模板库进行匹配从而达到口型识别的目的。本文详细讨论了口型识别过程中各个模块所应用到的算法和技术,提出了一种静态识别算法,在现有算法的基础上进行了优化和改进,较大的提高了系统的识别率和效率。实验结果表明,文中所构建的口型识别模块在进行单个单词的识别时能够实现83%的识别率。但是与动态口型识别技术相比还有一定的距离,未来我们仍需为更好的实现人机交互而不断努力。(本文来源于《吉林大学》期刊2016-06-01)
吴迪[3](2015)在《口型识别与唇读算法研究》一文中研究指出人类对语言的感知是多通道的,听力正常者在交谈的过程中也无意识的使用唇动、表情等视觉信息以辅助听觉能力。对于听力障碍者或噪声环境下的语言感知,视觉信息显得更加重要。计算机唇读技术正是在这样的背景下应运而生,它是指对说话者的口型变化等视频信息进行分析而识别出说话内容的过程。该技术涉及计算机视觉、人机交互、图像处理、模式识别等诸多领域,被广泛应用于与语音信息融合以提高识别率,也用于公共安全领域、生物特征识别和口型合成等。本文主要研究单视觉通道下基于孤立汉语字的唇读系统,从唇部区域检测、唇区特征提取及唇读训练和识别叁方面展开研究,主要工作及创新如下:(1)在唇部区域检测模块,详细介绍了基于Viola-Jones的检测方法,该方法利用Haar like矩形特征作为特征模板,以Adaboost算法训练特征值,并用级联的方式得到强分类器以实现检测。本文将其用于人脸和唇区的检测,检测正确率达到了97%,为下一步处理打下了良好的基础。(2)特征提取是唇读技术的核心。本文提出了一种基于像素的4阶段级联的特征提取方法。该方法首先对唇区图像进行图像变换,接着针对不同的图像变换结果采用合适的方法选取需要的数据,然后进行数据降维,最后对降维后数据实现矢量量化,得到最终特征向量。实验结果表明该方法与单独使用基于像素的方法相比特征向量维度大大降低,DCT-PCA和DWT-PCA方法的最高识别率分别达到了72.8%和77.4%。(3)唇读训练和识别模块,分析了HMM模型用于唇读识别的可行性,对将HMM应用于唇读时所面临的模型类型选取、初始参数选择等具体问题做了详细的说明,并给出了利用HMM进行唇读训练和识别的过程,最后通过实验建立了合理的唇读HMM模型。(4)唇读数据库是进行唇读研究的基础。文章研究了国内外现有的一些数据库,分析了它们的语料和规格,并建立了适合本文研究的数据库。自建数据库选取了汉语中常用的37个汉字,有3女2男共5名发音者,每人对每个字发音10遍,并对录制的视频资料进行了唇区提取等后期处理工作。同时本文设计了一个唇读识别原型系统,该系统基于C++和MFC,实现了基于汉语孤立字的唇读识别功能。(本文来源于《北京交通大学》期刊2015-03-17)
朱劲强[4](2014)在《基于稀疏表示的人类口型识别》一文中研究指出智能机器人的听觉系统很难像人的听觉系统那样可以轻而易举地从复杂环境产生的混合语音信号中感知某个人的语音并判断语音源个数。为了辅助智能机器人语音系统更好地分离混合语音信号,本文将引入视觉信号,即口型图像,来确定语音源个数。由此提出了基于稀疏表示的口型识别算法,通过检测说话人口型的开闭状态来判断该说话人是否构成语音源。本文在稀疏表示分类算法的基础上,分别从有识别力字典训练和样本优化两个方面进行研究。一方面,采用LC-KSVD算法通过带类标的训练集同步训练具有识别力的过完备冗余字典和最优分类器。在LC-KSVD算法中惩罚项不但包含了象征字典表征力的重构误差项,而且还加入了稀疏编码误差项和分类误差项以提高字典识别力,克服了K-SVD算法只注重字典表征力而忽略了识别力的不足,字典和分离器分开训练等缺点。另一方面,由于口型样本中存在口型区域以外的冗余信息且嘴巴姿态各异等因素影响了分类器对口型的识别,所以定义了一个由16个嘴唇轮廓特征点描述的标准口型模型,采用图像卷绕算法将口型样本映射到该标准模型中,以优化口型样本。将优化后的训练集样本直接堆迭或者经过LC-KSVD或K-SVD算法训练等方式获得过完备字典。在这两个方面的研究中,为了克服因字典过完备性而导致诸如OMP等贪婪算法可能无法收敛的缺点,本文在稀疏编码阶段均采用同伦算法求解稀疏系数。在此基础上,分别提出了基于LC-KSVD和同伦算法(Homotopy)的SRC人类口型识别算法以及基于图像卷绕(Image warping)和同伦算法的SRC人类口型识别算法。通过实验仿真,对比SVM,k-NN,MD等传统识别算法以验证本文算法的有效性。(本文来源于《南昌大学》期刊2014-05-24)
肖庆阳,张金,左闯,范娟婷,梁碧玮[5](2012)在《基于语义约束的口型序列识别方法》一文中研究指出口型识别是唇语识别的重要环节,由于中文相似口型较多,口型识别率往往不高。针对这一问题,提出一种基于语义约束的口型序列识别方法。该方法针对口型序列,利用语义约束和序列组合,分别对单一口型不易区分的情况和词语间隔不明显的情况进行处理,实现音节序列的识别,从而完成信息的转换。通过实例对该方法进行了实验验证,表明该方法技术可行,并基于此提出一种基于口型序列的唇语中文输入方法。(本文来源于《计算机应用与软件》期刊2012年09期)
瞿珊[6](2012)在《基于稀疏表示的人的口型识别》一文中研究指出随着计算机技术和信号处理理论的发展,如何利用计算机对图像、信号进行类似于人类视觉的信息处理,成为当前信息领域的一个热门研究课题。特征提取是模式识别的一个重要步骤,而模式识别是计算机视觉研究的一个难点。近些年,信号的稀疏表示方法受到了广泛的关注。由于人类视觉系统固有的对图像的稀疏表示特性,所以如何有效地将稀疏表示与特征提取相结合并应用于模式识别,成为一个新的研究热点。本文提出了一种基于稀疏表示的人的口型识别的方法。利用K-奇异值分解(K-SVD)方法对训练集进行过完备冗余字典的构造,过完备字典由两个字典合并构成,分别由口闭和口张的训练集训练而成。在此基础上,采用正交匹配追踪(OMP)方法实现测试图像的稀疏表示,将稀疏表示的系数即所提取的特征分成两部分,分别对应两个子字典的其中一个,并分别计算重构图像与测试图像之间的误差,最后识别出测试图像归属于哪一个模式类。在仿真实验中,用口型识别率对本文算法的可行性和有效性进行了验证。然后,分别选取了叁种分类方法与本文所提出的方法进行了对比。仿真结果表明,本文提出的基于稀疏表示的人的口型识别是可行和可靠的。(本文来源于《南昌大学》期刊2012-06-09)
钱声鹏[7](2009)在《口型识别若干技术研究》一文中研究指出近年来,计算机口型识别技术作为辅助语音识别的手段,受到越来越多的关注。本文针对基于视频的计算机唇读系统中唇部检测、唇读特征提取和唇语识别等关键技术进行了研究。首先提出了一种支持向量机分割嘴唇区域的方法,并基于口型模板提取描述嘴唇形状的特征参数。在此基础上提出了基于最小拟合误差平方和的动态聚类算法对口型静态状态分类的方法,并根据改进型的蚁群算法训练描述唇动态变化的状态时间序列,最后利用动态时间规整算法完成语义的模式匹配。实验表明识别方法较好地解决了单音的识别问题。(本文来源于《华北电力大学(北京)》期刊2009-05-01)
王力超[8](2007)在《口型识别问题中若干关键技术的研究》一文中研究指出本文根据肤色相似度理论,建立肤色模型,利用自适应阈值算法进行图像分割,实现人脸检测及定位。提出了一种基于彩色图像嘴唇分割和提取的方法。针对嘴唇区域唇色和肤色两类分类问题,应用支持向量机的原理设计分类器,选取R,G,B及阈值U作为支持向量机模型的特征向量,进行嘴唇分割,并二值化,去除噪声,提取图像边缘轮廓。用多条高次曲线建立嘴唇的数学模型,构造能量函数,求能量函数最小值,提取发音时的嘴唇形状特征。针对视频图像序列,实现初始帧嘴唇定位后,进入唇动序列跟踪状态。把前一帧得到的唇部特征值,作为下一幅图像的初始值。从而完成唇动序列跟踪,并选取一序列连续有效的嘴唇形状特征值建立小型的口型库。(本文来源于《华北电力大学(北京)》期刊2007-05-01)
崔双博[9](2005)在《口型识别中唇的分割及曲线拟合》一文中研究指出本文重点研究唇的分割及边缘提取。在唇的分割过程中,应用Fisher变换,对样本区域像素进行颜色空间变换,计算最佳投影矢量。利用阈值分割方法结合唇色与肤色的颜色空间分布特殊性,将唇从面部分割出来,并二值化。由于图像成像原因,图像含有部分噪声点,严重影响后期处理,通过模板进行平滑,减少了噪声的干扰。平滑后的二值图像有较清晰的轮廓,可以利用边缘提取或轮廓提取轮廓跟踪的方法获得唇的边缘。然后选取若干边缘点,利用曲线拟合得到平滑的唇形曲线。(本文来源于《华北电力大学(北京)》期刊2005-12-01)
柴秀娟,姚鸿勋,高文,王瑞[10](2002)在《唇读识别中的基本口型分类》一文中研究指出1 引言自然人机交互方式使得人同计算机的交流不再局限于键盘、鼠标等外设.而是通过语言及手势、表情、唇动等形体语言来进行,从而使得人机交互变得像人与人之间的交流一样轻松自如。唇读通常被视为说话过程中伴随的辅助信息,它有助于对说话者提供信息的更准确理解,减弱噪音干扰。计算机唇读是指通过建立口型模型和分析运动参数,定量地处理唇动信息辅助进行语音识别,或者是直接对序列图像进行分类和识别。发音是一个唇部和喉部肌肉连续运动的过程,人在发相同的音时,肌肉运动是极为相似的。构成运动的各个状态的描述是问题的关键。描述不同的状态就必须明确各种口型。因此(本文来源于《计算机科学》期刊2002年02期)
口型识别论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
在日常的交流和学习生活中,人类对于语言的感知是从多个通道汇合而成的。既可以通过声音通道获取相应的语音信息,也可以通过视觉观察唇动信息来辅助对于语音信息的理解。因此,通过对唇动信息的捕获来研究口型识别是非常重要的,不仅可以改善在噪声和干扰环境下语音识别准确率低的缺点,解决聋哑人交流中无法发出声音的问题,还可以应用于多媒体系统、人机智能交互和身份识别等多个领域。最近几年里,随着人机交互这个领域的火热,许多科研人员提出了基于唇读技术的人机交互方式,发展成为一个新的研究方向。大部分研究学者的研究内容都是将语音识别和口型识别相结合,以期望达到更高的识别率和准确率。并且,在过去的研究中,语音识别相关领域突飞猛进发展迅速,已远远超过口型识别技术的研究。所以,这篇文章的目的是对口型识别过程中的关键算法进行研究同时建立一个对单个单词进行识别的口型识别模块,为后续与手势识别相结合共同辅助聋哑人交流作准备。为了实现口型识别,首要条件是对嘴唇进行准确的定位,唇部定位的精确程度直接决定了整个系统的识别率,因此是具有重要意义的一步。本文通过对图像中的目标进行人脸识别,眼球定位从而获取嘴唇区域的完整像素,进而对唇部特征进行提取和处理,最后达到孤立词识别的目的。在人脸识别阶段,采用肤色分割方法同时对各种常用颜色模型的优缺点进行了对比,发现了RGB和HSV颜色模型对红色区域较为敏感以及YCbCr颜色模型的边缘检测效果较弱,易将肤色像素判断为非肤色区域的缺点,而将HSV和YCbCr颜色模型结合起来进行肤色分割则可以得到较好的结果并且避免红色区域以及光照强度的影响。在人眼定位阶段,首先采用像素值灰度积分法快速地将人眼候选区域从人脸范围内截取出来,然后利用眼睛瞳孔是圆形这一特征,对人眼候选区域进行Hough圆扫描检测,定位到几何特征为圆形的眼球部位。在嘴唇提取阶段,对传统的HSV颜色空间进行了改进和变换,增强了嘴唇区域像素与周围像素点的对比度,使得嘴唇分割效果更为理想。在口型识别阶段,首先需要提取唇形的几何特征,对各个特征函数进行测试和加权处理,然后采用动态时间规整算法(DTW)将加权后的特征与模板库进行匹配从而达到口型识别的目的。本文详细讨论了口型识别过程中各个模块所应用到的算法和技术,提出了一种静态识别算法,在现有算法的基础上进行了优化和改进,较大的提高了系统的识别率和效率。实验结果表明,文中所构建的口型识别模块在进行单个单词的识别时能够实现83%的识别率。但是与动态口型识别技术相比还有一定的距离,未来我们仍需为更好的实现人机交互而不断努力。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
口型识别论文参考文献
[1].秦正鹏.基于深度学习方法的口型识别技术的研究[D].华北电力大学(北京).2018
[2].鄢黎.基于HSV变换模型的静态口型识别算法的研究[D].吉林大学.2016
[3].吴迪.口型识别与唇读算法研究[D].北京交通大学.2015
[4].朱劲强.基于稀疏表示的人类口型识别[D].南昌大学.2014
[5].肖庆阳,张金,左闯,范娟婷,梁碧玮.基于语义约束的口型序列识别方法[J].计算机应用与软件.2012
[6].瞿珊.基于稀疏表示的人的口型识别[D].南昌大学.2012
[7].钱声鹏.口型识别若干技术研究[D].华北电力大学(北京).2009
[8].王力超.口型识别问题中若干关键技术的研究[D].华北电力大学(北京).2007
[9].崔双博.口型识别中唇的分割及曲线拟合[D].华北电力大学(北京).2005
[10].柴秀娟,姚鸿勋,高文,王瑞.唇读识别中的基本口型分类[J].计算机科学.2002