导读:本文包含了词义消歧论文开题报告文献综述及选题提纲参考文献,主要关键词:词义消歧,深度神经网络,语义拓扑,循环神经网络
词义消歧论文文献综述
肖锐,蒋家琪,张云春[1](2019)在《多义词语义拓扑及有监督的词义消歧研究》一文中研究指出多义词语义是汉语国际教育和HSK考试的重点和难点。词义消歧研究致力于确定多义词在给定上下文中的具体含义,在人机交互、机器翻译、作文自动评分等领域被广泛应用。然而,现有的词义消歧方法存在准确率较低、语料库匮乏、特征简单等弊端。针对汉语国际教育的相关语料库和评价系统,基于深度神经网络设计汉语多义词词义消歧的分类模型是当前的研究热点,同时也是实现HSK作文自动评分的重要技术保障。已有研究假定多个义项相互独立,缺乏对多义词义项演变关系的重视,对此文中首先对典型的汉语多义词进行语义研究,以区分基础义项和固定搭配义项来构建语义拓扑图,用于指导分类模型的训练。在建立多义词语义拓扑图的基础上,通过对汉语语料库的爬虫,获取典型多义词的语料样本,进而构建有监督的深度神经网络模型,包括RNN,LSTM和GRU。通过对爬虫所获样本的分析,选取了30字长和60字长,分别设计单向和双向6种神经网络,通过多次训练对模型参数进行优化,最终获得词义消歧分类模型。实验选取"意思"多义词作为代表,开展多义词在给定上下文的词义消歧实验。结果表明,基于RNN,LSTM网络和GRU的深度学习模型的平均准确率均超过75%,其中各模型的最大准确率均超过94%;各模型的ROC曲线下面积(Area Under Curve,AUC)均超过0.966,表明其对样本类不均衡性具有较好的处理效果;单向和双向RNN模型在不同字长条件下均取得最佳学习效果。(本文来源于《计算机科学》期刊2019年S2期)
张延星,王广祥,朱志芸,张蝶依[2](2019)在《基于知识图谱词义消歧的文本聚类方法》一文中研究指出在文本聚类的词义消歧环节,引入外部词典的消歧结果受到词典规模和领域的限制。增加向量相似度比较和语义模型等改进技术手段,无法使其突破对外部词典的依赖。针对识别多义词在上下文中语义唯一性的问题,提出基于知识图谱词义消歧的文本聚类算法。该算法采用TF-IDF模型获取文本特征词集合,利用知识图谱表达的词义序列关系确定多义词在特定的语义环境中的唯一语义,在词义概念层面完成文本的向量化表示,进行文本聚类。在BBC数据集上的实验结果表明,该方法在文本聚类的平均准确率上达到95%。(本文来源于《华北理工大学学报(自然科学版)》期刊2019年04期)
张春祥,赵凌云,高雪瑶[3](2019)在《基于卷积神经网络的词义消歧》一文中研究指出为了提高词义消歧性能,提出了一种基于卷积神经网络的消歧方法.以歧义词为中心,向左右两侧连续扩展4个邻接词汇单元,选取其中的词形、词性和语义类作为消歧特征.以消歧特征为基础,使用卷积神经网络来确定歧义词的语义类别.利用Sem Eval-2007:Task#5的训练语料和哈尔滨工业大学语义标注语料来优化卷积神经网络.使用Sem Eval-2007:Task#5的测试语料来测试词义消歧分类器的性能,所提方法的消歧平均准确率有提高.实验结果表明,该方法在词义消歧中是可行的.(本文来源于《北京邮电大学学报》期刊2019年03期)
唐善成,马付玉,张镤月,陈熊熊[4](2019)在《采用Seq2Seq模型的非受限词义消歧方法》一文中研究指出词义消歧在中文自然语言处理中有着重要作用,基于传统机器学习的方法存在准确度不高,需要人工提取文本特征的缺点;基于深度学习的方法不适于词义歧义较多的情况。该文提出采用Seq2Seq模型的非受限词义消歧方法,输入词上下文序列,经过编码器编码得到潜在语义向量,再经过解码器解码输出词义序列,适用于所有词义歧义情况。最后,在SemEval-2007 Task#5任务中进行测试,测试结果表明,该文提出的方法比其他7种方法中的最优方法消歧准确率提高了11.48%。(本文来源于《西北大学学报(自然科学版)》期刊2019年03期)
程晓煜[5](2019)在《基于神经网络的中文词义消歧研究》一文中研究指出词汇的歧义性是自然语言的固有特征,词义消歧作为自然语言处理的一个基础任务,其结果对信息检索、机器翻译和信息抽取等上层任务具有直接影响。通过大规模语料训练的词向量包含了丰富的语义和句法信息,将其加入词义消歧模型中,可以提高模型的准确率。随着神经网络的发展和计算机处理能力的提高,神经网络在许多自然语言处理任务中取得了重大进展,但基于神经网络的中文词义消歧研究相对较少,且已有的少数工作忽略了目标词的外部知识。故本文对于中文词义消歧任务,分别从统计机器学习方法和神经网络方法进行研究,具体工作如下:(1)提出了基于词向量的支持向量机(Support Vector Machine,SVM)中文词义消歧模型。使用词向量表示的上下文词特征和词性特征代替之前统计机器学习方法中的复杂特征,作为SVM分类器的输入特征。本文使用ngram2vec模型训练的中文词向量,在词向量训练时将字特征和ngram特征加入到上下文特征中。该模型在SemEval 2007 task5中文采样词词义消歧任务中宏平均准确率为80.44%,相对于该数据集中机器学习模型的最好结果,宏平均准确率提高2.56%;在郑州大学构建的汉语词义标注语料库中微平均准确率达到83.18%。(2)提出了基于语言知识和神经网络的中文词义消歧模型。首先提出了基于双向长短时记忆网络(Bidirectional Long Short Term Memory,Bi-LSTM)的中文词义消歧模型,模型使用Bi-LSTM建模目标词上下文语义信息,通过softmax函数进行词义分类。然后提出了融合词典信息的中文词义消歧模型,将词典中的释义和例句作为外部知识添加到神经网络模型中,借助外部知识辅助词义判断。模型通过两个Bi-LSTM分别建模目标词的上下文信息和词典信息,使用注意力算法建模两者之间的语义关系,最后综合上下文信息和词典信息进行中文词义消歧。该模型在SemEval 2007语料中宏平均准确率达到85.28%。(本文来源于《郑州大学》期刊2019-05-01)
邵玉涵[6](2019)在《基于知识和图结构的词义消歧算法研究》一文中研究指出网络的发展带来了文本信息的爆炸式生产,社交网络、购物平台等每时每刻都在产生大量的文本信息。词语歧义作为文本中普遍存在的现象,让自然语言处理遇到了挑战。虽然人类能很好理解歧义词语的释义,但计算机无法很好地自动识别词语的语义。这导致了在机器翻译、信息抽取、文本分类等自然语言处理领域,各种算法都很难精细处理到词语粒度。为了解决词语歧义带来的问题,词义消歧被提出来提高计算机对歧义词语的理解能力,为机器翻译等自然语言处理领域的应用打下基础。本文针对词义消歧展开研究,并围绕基于知识和图模型的消歧算法进行了改进,并运用在短文本领域中。本文主要工作具体如下所示:(1)概述词义消歧的研究领域,对词义消歧算法的发展过程、分类、常用的外部知识等进行了概述,并比较了不同类型词义消歧算法的差异。(2)提出了一种基于全局领域和短期记忆因子的语义图模型,使得语义图能更好的记录全局领域信息,使得消歧结果具有更好的统一性。并基于该语义图进行词义消歧,提高了词义消歧对全局和局部语义的利用能力。大量实验表明:改进的语义图模型对词义消歧算法的结果有显着提升。(3)为了解决短文本即时性、非标准性和语义稀疏的特性,本文将基于图和外部知识的词义消歧运用于短文本分类,使得新提出的方法能有效提升短文本的语义密度。实验结果表明:本文提出的方法对经典算法做出了一定的提升,使得词义消歧在短文本分类的应用上起到了良好效果。(本文来源于《合肥工业大学》期刊2019-04-01)
李海瑞[7](2019)在《基于DBN的词义消歧研究》一文中研究指出在汉语词汇中存在着一定数量的歧义词,虽然歧义词的出现为自然语言的应用带来了便利,但是也为自然语言的理解和翻译带来了一定的困难。词义消歧就是根据歧义词的上下文语境来判定它的真实语义。随着人工智能的兴起,词义消歧在诸多高新领域中的应用越来越多,已经成为了一个自然语言处理中需要解决的重要难题。通过对词义消歧领域知识的研究结合机器学习的相关知识,本文提出了一种基于深度信念网络(Deep Belief Network,DBN)的词义消歧方法,并以传统的基于贝叶斯模型的词义消歧方法和基于受限制玻尔兹曼机(Restricted Boltzmann Machine,RBM)模型的词义消歧方法作为对比。本文所提出的方法具有很强的分类能力,歧义词的消歧准确率比传统方法也有了很大的提高。本文的研究内容分为如下几个部分:首先,介绍了词义消歧的研究目的和意义,对国内外的研究现状和发展趋势进行了分析,并介绍了一些国内外权威的词义消歧方法以及课题的主要研究内容。其次,研究了自然语言学中的一些基础的知识,并对《同义词词林》做了详细的介绍。详细说明了贝叶斯分类器、RBM分类器和DBN分类器的消歧特征的选取过程。对于贝叶斯分类器本文以歧义词汇左右邻接的四个词汇单元的词形和词性作为消歧特征来判定歧义词的含义,对于RBM分类器和DBN分类器以歧义词左右邻接的四个词汇单元的词形、词形和语义类作为消歧特征来判定歧义词的含义。最后,使用DBN来构建词义消歧模型。结合SemEval-2007:Task#5的训练语料和哈尔滨工业大学语义标注语料库来优化DBN的参数。使用SemEval-2007:Task#5的测试语料对词义消歧分类器进行测试。本文以贝叶斯分类器和RBM分类器为参照,共进行了叁组实验。经过实验对比,DBN分类器的消歧能力要高于贝叶斯分类器和RBM分类器。(本文来源于《哈尔滨理工大学》期刊2019-03-01)
王子牛,陈娅先,高建瓴,吴建华,王许[8](2019)在《基于神经网络的词义消歧》一文中研究指出在计算机语言学中,词义消歧是自然语言处理的一个重要问题,词义消歧即指根据上下文确定对象语义的过程,在词义、句义、篇章中都会出现这种词语在上下文的语义环境中有不同的含义的现象。本文提出一种基于神经网络的模型实现词义消歧,将词向量输入神经网络,通过分类的方式实现消歧的目的。实验表明,基于神经网络的词义消歧比传统的统计方法消歧具有更高的准确度。(本文来源于《软件》期刊2019年02期)
孟凡擎,鹿文鹏,张旭,成金勇[9](2018)在《基于HowNet的图模型词义消歧方法》一文中研究指出作为自然语言处理的一项基础性研究,词义消歧对机器翻译、信息检索、文本分类、情感分析等上层应用有重要影响。本文针对现有消歧方法中存在的对知网知识利用不充分问题,提出了一种基于How Net的图模型词义消歧方法。该方法利用依存句法分析获取上下文知识,构建上下文消歧图,并对How Net中有着重要词义区分能力的例句进行依存句法分析,构建依存消歧图,结合上下文消歧图和依存消歧图完成歧义词的消歧处理。实验结果表明,该方法在Sem Eval-2007 task#5数据集上取得了0.468的消歧准确率,获得优于同类方法的消歧效果。(本文来源于《齐鲁工业大学学报》期刊2018年06期)
李国佳,赵莹地,郭鸿奇[10](2018)在《一种基于多义词向量表示的词义消歧方法》一文中研究指出词义消歧是自然语言处理领域的基本任务。在词语词向量表示的基础上,计算获得多义词语上下文窗口的向量表示。利用统计的多义词及词义个数,基于K-means算法聚类文本语料集中多义词的上下文窗口表示,在原始文本语料集中对多义词语根据聚类类别进行标记。在标记的文本语料集上,训练获得多义词语每个词义的向量表示。对句子中的多义词语,给出了一种基于多义词向量表示的词义消歧方法,实验结果显示该方法有效可行。(本文来源于《智能计算机与应用》期刊2018年04期)
词义消歧论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
在文本聚类的词义消歧环节,引入外部词典的消歧结果受到词典规模和领域的限制。增加向量相似度比较和语义模型等改进技术手段,无法使其突破对外部词典的依赖。针对识别多义词在上下文中语义唯一性的问题,提出基于知识图谱词义消歧的文本聚类算法。该算法采用TF-IDF模型获取文本特征词集合,利用知识图谱表达的词义序列关系确定多义词在特定的语义环境中的唯一语义,在词义概念层面完成文本的向量化表示,进行文本聚类。在BBC数据集上的实验结果表明,该方法在文本聚类的平均准确率上达到95%。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
词义消歧论文参考文献
[1].肖锐,蒋家琪,张云春.多义词语义拓扑及有监督的词义消歧研究[J].计算机科学.2019
[2].张延星,王广祥,朱志芸,张蝶依.基于知识图谱词义消歧的文本聚类方法[J].华北理工大学学报(自然科学版).2019
[3].张春祥,赵凌云,高雪瑶.基于卷积神经网络的词义消歧[J].北京邮电大学学报.2019
[4].唐善成,马付玉,张镤月,陈熊熊.采用Seq2Seq模型的非受限词义消歧方法[J].西北大学学报(自然科学版).2019
[5].程晓煜.基于神经网络的中文词义消歧研究[D].郑州大学.2019
[6].邵玉涵.基于知识和图结构的词义消歧算法研究[D].合肥工业大学.2019
[7].李海瑞.基于DBN的词义消歧研究[D].哈尔滨理工大学.2019
[8].王子牛,陈娅先,高建瓴,吴建华,王许.基于神经网络的词义消歧[J].软件.2019
[9].孟凡擎,鹿文鹏,张旭,成金勇.基于HowNet的图模型词义消歧方法[J].齐鲁工业大学学报.2018
[10].李国佳,赵莹地,郭鸿奇.一种基于多义词向量表示的词义消歧方法[J].智能计算机与应用.2018