层次强化学习论文-闫雪飞,李新明,刘东,刘德生,李强

层次强化学习论文-闫雪飞,李新明,刘东,刘德生,李强

导读:本文包含了层次强化学习论文开题报告文献综述及选题提纲参考文献,主要关键词:武器装备体系,作战仿真,强化学习,GRBF神经网络

层次强化学习论文文献综述

闫雪飞,李新明,刘东,刘德生,李强[1](2018)在《基于强化学习的体系对抗仿真战役层次指控算法》一文中研究指出针对传统的认知决策技术无法有效应对体系对抗环境具有的不确定性、未知性以及复杂性问题,提出一种基于强化学习(RL)的体系对抗仿真战役层次指控算法。介绍了包含侦察类、打击类、通信类、补给类、修复类以及指控类Agent的UML体系架构,对自主开发的作战仿真原型系统及其作战想定进行了说明,在对战役层次指控Agent认知域描述与假设的基础上,对改进Q-learning认知决策算法的参数归一化、基于GRBF神经网络的Q离散、基于TD公式的跨步差分机制以及网络结构的学习训练过程进行了详细说明。最后,通过地空一体化联合体系对抗仿真验证了算法的有效性,并通过对算法的大量可视化回溯分析发现,一定程度的火力协调以及不间断的战术机动对于作战效能的提升以及毁伤的减免具有重要的意义。(本文来源于《计算机工程与科学》期刊2018年08期)

王青[2](2018)在《基于强化学习的层次化注意力网络模型及文本情感分类研究》一文中研究指出随着社交平台和电商平台数量的急剧增加,用户在网络上发表意见、表达情感已经成为一种日常现象,因此海量的非结构化数据也随之产生。利用自然语言处理技术对非结构化文本数据进行分析,并挖掘其中所带有的情感倾向,可以为社会舆情监督、商家售后信息反馈和其他用户的决策提供有力的帮助。因此,文本情感分类研究具有非常重要的社会意义和商业价值。在自然语言处理任务中,对停用词的处理通常是使用人工维护的停用词表,并没有一个明确的停用词表适用于所有的情景。另外,文本情感分类任务可以在不同层面进行,例如:文档级、句子级、词或短语级。本文是在文档级处理情感分类任务,其中以深度学习为基础的层次化注意力网络模型(HAN)在过去几年中取得了较好的分类准确率。但是它本身也存在不足,即基于序列的双向门控循环单元(GRU)对文本结构的依赖非常强,而层次化的注意力网络模型(基于双向GRU)没有考虑文本的结构。因此本文提出了两种改进模型:(一)ID-HAN模型是将HAN模型的底层换为一个强化学习模型,对文档分词后一句话中的词是否保留进行自动学习,从而实现针对实验文本数据和实验目的的停用词自动处理。之后将保留的词汇利用单层长短期记忆网络(LSTM)构建句子向量表达,在接下来要进入的句子序列编码器层加入一个高速连接,使得底层的强化学习模型可以得到充分的训练。与人工去除停用词的LSTM-BiGRU模型和HAN模型相比,ID-HAN模型在实验数据集上有更高的准确率。(二)HS-HAN模型底层也为一个强化学习模型,可以自主的学习到英文句子的内部短语结构并进行调整。该模型通过一个两级的LSTM网络,抽取出带有结构信息的句向量,接下来输入到加入高速连接的句子序列编码层(与ID-HAN模型类似带有高速连接),得到整篇文本带有结构信息的向量表示。与当前文档级情感分类任务常用的HAN模型和Struc-ATT模型相比,HS-HAN模型在英文实验数据集上有更高的分类准确率。(本文来源于《华南理工大学》期刊2018-04-20)

陈菲菲[3](2016)在《强化思维训练,提升学习层次》一文中研究指出数学教学中存在多元的教学目标,除了知识的传递与技能的形成之外,我们还耍帮助学生养成良好的思维品质,形成一定的思维能力,这样学生的数学学习才能游刃有余。在实际教学中我们要把握好教学的时机,给学生充分的时间和空间,让他们的思维能力随着知识经验的累积水涨船高。具体可以从以下几方面着手:一、强化思维的独立性独立思维是学生数学思维训练的前提,只有赋予学生独立思考的(本文来源于《数学大世界(上旬)》期刊2016年09期)

维侨[4](2011)在《抓“四多”强能力转作风》一文中研究指出自开展能力作风建设工作以来,维扬区外侨办按照全区统一部署,迅速成立领导小组、制定实施方案、层层分解目标,围绕“四多”强能力转作风。    多层次强化学习。立足本职专题学,重点学习外事团组业务流程、提升招商接待水平、归侨侨眷权益保护法、最新外事规定等内(本文来源于《扬州日报》期刊2011-09-14)

郑宇,罗四维,吕子昂[5](2006)在《基于模型的层次化强化学习算法》一文中研究指出针对强化学习算法的状态值泛化和随机探索策略在确定性MDP系统控制中存在着学习效率低的问题,本文提出基于模型的层次化强化学习算法.该算法采用两层结构,底层利用系统模型,采用贪婪策略选择探索动作,完成强化学习任务.而高层通过对状态区域的分析,指导底层的学习,纠正底层错误的动作.高层对底层的学习的指导作用主要包括:在泛化过程中,对泛化区域中正确与错误的状态判断值分别采用不同的学习因子,减小泛化对算法收敛性的影响;建立状态区域的推理规则,用规则指导未知状态区域的学习,加快学习速度;利用系统模型和推理规则,将探索过程集中于系统的可控区域,克服采用随机探索策略需要系统全状态空间内搜索的问题.本文提出的算法能在较短的时间内实现系统的初步控制,其有效性在二级倒立摆的控制中得到验证.(本文来源于《北京交通大学学报》期刊2006年05期)

层次强化学习论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着社交平台和电商平台数量的急剧增加,用户在网络上发表意见、表达情感已经成为一种日常现象,因此海量的非结构化数据也随之产生。利用自然语言处理技术对非结构化文本数据进行分析,并挖掘其中所带有的情感倾向,可以为社会舆情监督、商家售后信息反馈和其他用户的决策提供有力的帮助。因此,文本情感分类研究具有非常重要的社会意义和商业价值。在自然语言处理任务中,对停用词的处理通常是使用人工维护的停用词表,并没有一个明确的停用词表适用于所有的情景。另外,文本情感分类任务可以在不同层面进行,例如:文档级、句子级、词或短语级。本文是在文档级处理情感分类任务,其中以深度学习为基础的层次化注意力网络模型(HAN)在过去几年中取得了较好的分类准确率。但是它本身也存在不足,即基于序列的双向门控循环单元(GRU)对文本结构的依赖非常强,而层次化的注意力网络模型(基于双向GRU)没有考虑文本的结构。因此本文提出了两种改进模型:(一)ID-HAN模型是将HAN模型的底层换为一个强化学习模型,对文档分词后一句话中的词是否保留进行自动学习,从而实现针对实验文本数据和实验目的的停用词自动处理。之后将保留的词汇利用单层长短期记忆网络(LSTM)构建句子向量表达,在接下来要进入的句子序列编码器层加入一个高速连接,使得底层的强化学习模型可以得到充分的训练。与人工去除停用词的LSTM-BiGRU模型和HAN模型相比,ID-HAN模型在实验数据集上有更高的准确率。(二)HS-HAN模型底层也为一个强化学习模型,可以自主的学习到英文句子的内部短语结构并进行调整。该模型通过一个两级的LSTM网络,抽取出带有结构信息的句向量,接下来输入到加入高速连接的句子序列编码层(与ID-HAN模型类似带有高速连接),得到整篇文本带有结构信息的向量表示。与当前文档级情感分类任务常用的HAN模型和Struc-ATT模型相比,HS-HAN模型在英文实验数据集上有更高的分类准确率。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

层次强化学习论文参考文献

[1].闫雪飞,李新明,刘东,刘德生,李强.基于强化学习的体系对抗仿真战役层次指控算法[J].计算机工程与科学.2018

[2].王青.基于强化学习的层次化注意力网络模型及文本情感分类研究[D].华南理工大学.2018

[3].陈菲菲.强化思维训练,提升学习层次[J].数学大世界(上旬).2016

[4].维侨.抓“四多”强能力转作风[N].扬州日报.2011

[5].郑宇,罗四维,吕子昂.基于模型的层次化强化学习算法[J].北京交通大学学报.2006

标签:;  ;  ;  ;  

层次强化学习论文-闫雪飞,李新明,刘东,刘德生,李强
下载Doc文档

猜你喜欢