语种识别论文-李卓茜,高镇,王化,刘俊南,朱光旭

语种识别论文-李卓茜,高镇,王化,刘俊南,朱光旭

导读:本文包含了语种识别论文开题报告文献综述及选题提纲参考文献,主要关键词:短语音,易混淆语种,语种识别,语音特征

语种识别论文文献综述

李卓茜,高镇,王化,刘俊南,朱光旭[1](2019)在《短语音及易混淆语种识别改进系统》一文中研究指出该文针对短语音(语段时长小于等于1s)和易混淆语音的语种识别进行研究。选取东方多语种识别竞赛数据集为实验数据集,对比了音素对数似然比特征、梅尔频率倒谱系数特征、深度瓶颈层特征(DBF)在短语音及易混淆语种识别中的性能,证明DBF在两种识别任务中均具有较好的性能。为提升识别准确率提出DBF-I-VECTOR语种识别改进系统,该系统分别将基线DBF-I-VECTOR系统的短语音识别等错误率最优结果从12.26%降低为10.55%,易混淆语音识别等错误率(EER)最优结果从5.53%降低为2.86%。在对比改进系统后端的余弦距离(CDS)、概率线性判别分析(PLDA)、支持向量机(SVM)、极端梯度提升(XGBoost)、随机森林(RF)分类性能时发现RF在短语音任务中分类效果最好,SVM在易混淆任务中分类效果最好。(本文来源于《中文信息学报》期刊2019年10期)

吴敏,马延周[2](2019)在《语种识别技术概论》一文中研究指出语种识别(LID)是语音技术的一个重要分支,伴随着深度神经网络(DNN)的崛起,大大提升语音识别系统的性能,同样也使得语种识别技术得到飞速的发展。语种识别技术经历从使用传统特征来进行识别到使用DNN进行识别的过程,主要对语种识别过程中的典型方法进行简要介绍,选取几个具有代表性的模型进行介绍和比较。(本文来源于《现代计算机》期刊2019年19期)

唐儒星[3](2019)在《基于高层语义特征提取和数据集间不匹配补偿的语种识别方法》一文中研究指出随着当代人工智能研究的蓬勃发展,自动语音识别及其相关技术的应用也越来越广泛。语种识别作为自动语音识别技术的重要组成部分,在包括自动语音转接等多个领域都有着重要的作用。近年来,关于语种识别技术的研究成果层出不穷,性能相比于上世纪已经取得了显着的提升,然而其目前仍面临着高层语义信息利用较少、短时语音处理效果差、易受不同数据集间差异影响等问题。随着语种识别技术重要性的日益凸显,该领域急需研究更为合适的处理方法。为了提升语种识别模型的性能,本文将对基于时序信息的长短时网络与高层语义嵌入向量的语种识别方法进行深入探索。在基于时序信息的长短时神经网络的识别方法中,首先阐述了这类网络对语种时序性信息的提取能力和对语种高层语义信息的概括能力,进而通过结合如瓶颈层特征等包含语音段高层语义信息的特征表达来构建新的网络结构,并以所提取出的反映高层语义信息的嵌入向量代替传统语种识别模型中的语种身份向量来构建新的语种识别模型,以提升语种识别的性能。实验表明,上述两种模型的性能与使用余弦距离分类的i-vector基线系统相比分别有30.07%和20.60%的提高。为了解决语种识别过程中遇到的数据不匹配问题,本文提出了使用基于隐变量子空间因子分析的方法。它的核心思想是根据输入语音段的相关信息,利用其矩阵分解在子空间上的表示方法,通过对长短时神经网络统计信息池化层的输出进行补偿修正,以达到提升语种识别性能的目的。该方法对基于时序信息的长短时网络与高层语义嵌入向量的语种识别方法在不匹配数据集上的性能提升比较明显,两种方法与采用原始模型的方法相比分别提高了约12.6%和23.0%,并且与基于径向基核函数支持向量机分类方法的i-vector基线系统相比性能分别提升了约10.10%和10.88%。(本文来源于《哈尔滨工业大学》期刊2019-06-01)

白亮[4](2019)在《CRI语种识别训练数据的采集设计与应用》一文中研究指出随着AI技术的发展,语种识别作为语音识别的重要组成部分,已经得到初步应用。在广播监测领域,无论是质量监测还是频谱收测都需要识别广播语种。本文根据语种识别训练需求,设计了一种从卫星音源采集声音数据的方法,并编程实现。(本文来源于《广播电视信息》期刊2019年04期)

何峻青,黄娴,赵学敏,张克亮[5](2019)在《利用领域外数据对口语风格短文本的相近语种识别研究》一文中研究指出该文以维吾尔语和哈萨克语这一组相近语言为例,在哈语语料受限的情况下,使用领域外语料增补原始语料,经同化后提高了在口语风格短文本上进行语种识别的精确度。该文分析了维、哈两种语言的词形学特点,设计了多种特征,构建了一个最大熵分类器,在测试集上识别维语和哈语口语风格短文本的精确度达到95.7%,而CNN分类器的精确度仅为69.1%。实验结果证明该系统对其他语种口语风格短文本的语种识别亦具有适用性。(本文来源于《中文信息学报》期刊2019年03期)

金马,宋彦,戴礼荣[6](2019)在《基于卷积神经网络的语种识别系统》一文中研究指出从给定语音中提取有效语音段表示是语种识别的关键点。近年来深度学习在语种识别应用中有重要的进展,通过深度神经网络可以提取音素相关特征,并有效提升系统性能。基于深度学习的端对端语种识别系统也表现出其优异的识别性能。本文针对语种识别任务提出了基于卷积神经网络的端对端语种识别系统,利用神经网络强大的特征提取能力及区分性建模能力,提取具有语种区分性的基本单元,再通过池化层得到有效语音段表示,最后输入全连接层得到识别结果。实验表明,在NIST LRE 2009数据集上,相比于现阶段国际主流语种识别系统,提出的系统在30 s,10 s和3 s等语音段上错误率分别相对下降了1.35%,12.79%和29.84%,且平均错误代价在3种时长上均相对下降30%以上。(本文来源于《数据采集与处理》期刊2019年02期)

徐立城[7](2018)在《基于Langid的语种识别研究》一文中研究指出语音识别技术飞速发展,在现实生活中扮演着越来越重要的角色,语音识别简单来说是让计算机理解人的语音,它有两大研究领域:语种识别和说话人识别。本文围绕语种识别展开,语种识别(Language Identification,LID),是指计算机通过理解和识别过程判定输入语音的语种。本论文并通过两个不同类型的实验,来研究语种识别问题,例如Langid工具包的使用。语种识别,在多语音语言识别系统中扮演着重要的角色,在语言翻译、手写体文字识别、键盘输入、信息发现和挖掘系统等研究领域都有应用,其发展非常迅速。(本文来源于《中国新技术新产品》期刊2018年16期)

高骥[8](2018)在《基于语种对抗训练的跨语种说话人识别研究》一文中研究指出近年来,随着科技的高速发展,人们越来越多的关注到生活中的信息安全和身份认证,个人信息、保密信息的泄漏不但对个人的人身、财产安全造成严重威胁,也会对社会的发展带来不利的影响。目前,身份证件、口令密码等传统的身份认证和鉴别的方法已经不能完全满足人们的需求,而基于生物特征的身份鉴别技术以其方便、可靠等特性,越来越多的得到了人们的关注。语音作为人们日常生活中交流沟通最直接、最便捷的方式,其中衍生出的说话人识别技术也成为研究的热点和重点随着国际化浪潮的推进,单一的语言已经完全不能满足人们的日常生活、工作和学习的需要。我国幅员辽阔,是一个多民族融合的国家,有着丰富的少数民族语言和地区方言,这种情况在我国南部和西部的粤语、藏语、维语等与中文普通话差异较大的方言和民族语言流行的地区尤为明显,跨语种的说话人识别问题在身份认证、公安刑侦、国防安全等领域尤显突出。本文针对跨语种的说话人识别这一问题提出基于语种对抗训练的跨语种说话人识别算法。利用迁移学习中对抗训练的方式提高从语音中提取说话人信息的能力,进而提高对跨语种任务中说话人识别的精度。本文的主要工作和贡献包括以下几点:(1)将卷积神经网络和时延神经网络相结合,应用于说话人识别的任务上,利用深度神经网络强大的表达能力,构建了一个可以实现端到端识别说话人的网络模型,并在跨语种的说话人识别数据上验证了其有效性。实验证明卷积-时延神经网络可以有效提取语音中的说话人信息,在同语种和跨语种的说话人识别任务中均能有效使用。(2)提出了基于语种对抗训练的说话人识别算法。利用迁移学习中对抗训练的思想,在基于深度神经网络的端到端的说话人识别网络中使用语种对抗训练的方法训练网络,在训练中加入语种监督信息。实验证明,该算法继承了深度神经网络能有效提取说话人信息的特点,同时能将网络中隐藏层提取的特征信息排除语种信息干扰,有效提高了跨语种说话人识别的精度。(3)利用叁元损失函数训练深度神经网络。使用叁元损失函数替代常规网络训练中的交叉熵函数,将不同说话人信息和不同语种之间的信息同时引入到网络训练中,进一步提高跨语种说话人识别的精度。(本文来源于《华中科技大学》期刊2018-05-24)

崔峭[9](2018)在《基于深度学习的自然场景下多语种古文字图符识别问题研究》一文中研究指出古文字图符记录着一个民族的文化和历史,是语言学、民族学、文献学等相关研究领域重要的研究对象。对于古文字图符的研究,传统上采用手工的方式,效率低下,不利于记录、交流和传播。采用先进的数字化技术对古文字图符进行研究的需求越来越迫切。本论文的研究课题来源于“2014年度国家社会科学基金重大项目”(14ZDB104),目的是实现基于图像的符号自动识别与检索,建成总体数据库,方便用户的使用、交流,提升研究效率。该项目涉及文字22种(少的81个符号,多的有2000多个符号),绝大部分不包含在1990年出版的《中国民族古文字图录》和中华字库工程内容当中。针对古文字图符的自动识别任务的需求,前期做了大量调研,然而没有发现古文字图符自动识别问题的相关资料,可借鉴的很少。最终,我们选择了目前在众多视觉任务中表现效果优异的“深度学习”技术来完成课题任务。论文采用增量学习的思想,探索了一套完整的工程实践方案,分为叁个阶段进行:第一阶段,对深度学习技术与传统方法进行对比实现了基于卷积神经网的10分类识别任务,并对深度学习技术在古文字图符研究工作中的应用进行总结,;第二阶段,将迁移学习技术应用到了古文字图符识别领域,探索、解决了古文字图符样本少、分类多的问题;第叁阶段,研究近一两年来比较热门的生成对抗网络,采用基于卷积神经网的生成对抗网络,通过随机生成样本来优化模型,使得模型拥有识别自然场景下的图符的能力。经过叁个阶段的研究工作,在测试集上取得了很好的测试效果。论文工作主要有:1、针对研究课题,提出了一种针对小样本、多分类、自然场景图符识别问题的解决方案;2、针对训练数据的不足,根据需求不同,提出了叁种数据增强方案;3、结合工程实践,对于卷积神经网的结构和参数问题进行了深入的研究。总结了可视化、样本特征空间、网络表现力等多个角度的网络评估方法,整理了网络优化方案。最后,论文实现了基于Web端的古文字图符检索系统,并且充分考虑了系统的扩展性,为后续工作的进行奠定了基础。(本文来源于《中央民族大学》期刊2018-03-29)

苗晓晓,张健,索宏彬,周若华,颜永红[10](2018)在《应用于短时语音语种识别的时长扩展方法》一文中研究指出为解决待识别语音时长小于10s时,语种识别性能急剧下降的问题,该文提出应用语音时域伸缩(time-scale modification,TSM)技术改变语音的长度(从而改变了语速),并保持其他频域信息不变。首先,对一段待识别语音,应用TSM技术转换为多条时域压缩和时域拉伸后的语音;其次,将这些不同语速的语音与原语音拼接起来,生成一个时长较长的语音;最后,送入语种识别系统进行识别。实验结果表明:所提出的语音时长扩展算法可以显着提升短时语音的语种识别性能。(本文来源于《清华大学学报(自然科学版)》期刊2018年03期)

语种识别论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

语种识别(LID)是语音技术的一个重要分支,伴随着深度神经网络(DNN)的崛起,大大提升语音识别系统的性能,同样也使得语种识别技术得到飞速的发展。语种识别技术经历从使用传统特征来进行识别到使用DNN进行识别的过程,主要对语种识别过程中的典型方法进行简要介绍,选取几个具有代表性的模型进行介绍和比较。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

语种识别论文参考文献

[1].李卓茜,高镇,王化,刘俊南,朱光旭.短语音及易混淆语种识别改进系统[J].中文信息学报.2019

[2].吴敏,马延周.语种识别技术概论[J].现代计算机.2019

[3].唐儒星.基于高层语义特征提取和数据集间不匹配补偿的语种识别方法[D].哈尔滨工业大学.2019

[4].白亮.CRI语种识别训练数据的采集设计与应用[J].广播电视信息.2019

[5].何峻青,黄娴,赵学敏,张克亮.利用领域外数据对口语风格短文本的相近语种识别研究[J].中文信息学报.2019

[6].金马,宋彦,戴礼荣.基于卷积神经网络的语种识别系统[J].数据采集与处理.2019

[7].徐立城.基于Langid的语种识别研究[J].中国新技术新产品.2018

[8].高骥.基于语种对抗训练的跨语种说话人识别研究[D].华中科技大学.2018

[9].崔峭.基于深度学习的自然场景下多语种古文字图符识别问题研究[D].中央民族大学.2018

[10].苗晓晓,张健,索宏彬,周若华,颜永红.应用于短时语音语种识别的时长扩展方法[J].清华大学学报(自然科学版).2018

标签:;  ;  ;  ;  

语种识别论文-李卓茜,高镇,王化,刘俊南,朱光旭
下载Doc文档

猜你喜欢