电子市场环境下的多智能体学习与协商

电子市场环境下的多智能体学习与协商

论文摘要

随着互联网络的迅速发展,人们倾向于将越来越多的互联系统看作是多个相互交互的自主智能体,这种面向智能体的方法学为我们分析、设计、实施和评价复杂的分布式系统提供了强有力的工具。多智能体系统(MAS)和智能体技术正是在这个背景下提出并发展起来的。作为分布式人工智能(DAI)中一个分支学科,MAS从20世纪80年代开始研究,到90年代得到广泛认同,目前正逐渐引起越来越多的关注和研究。在分布、互联、自治的网络环境下,电子市场成为一个热点的应用领域。这主要是因为经济全球化和信息技术的推动,使得每个企业能够随时收集市场信息并变更行为,因此每个企业都处在一个竞争的、不断动态变换的市场下。而电子市场具有信息集中,决策迅速的优势,因此日益成为协调生产、制造和销售等环节的有效手段。 本文的研究内容可以从理论和应用两个层面来概括。在理论层面上属于MAS领域,内容涵盖了MAS研究领域的主要方面,包括:多智能体学习、推理、协商、交互机制等等;在应用层面上围绕电子市场的实际应用,讨论了电子市场定价、物流配货、原料配置、C2C交易协商、B2C协商等问题。本文的创新点主要可以从以下几方面来概括。 1、针对协调博弈提出了基于内省推理的多智能体在线学习方法(ⅡFPQL),将基于对手模型的客观观察行为与基于换位思考推理的主观意图推测结合起来,智能体通过推理得到了更多的对手信息,因此能够取得更好的协调性能。仿真结果证实了算法在少数者博弈和经典协调博弈中的有效性。 2、将电子市场定价问题建模为一个多吸收状态的马尔可夫博弈模型,并通过仿真实验在定价模型上验证了ⅡFPQL算法的有效性,结果表明ⅡFQPL算法能够使得卖方智能体在合作还是竞争的问题上表现出长远的智能行为。 3、给出了三个分布式环境下的多智能体合作学习方法。针对Q学习状态空间大,收敛速度慢的问题,首先给出了一种基于黑板模型的多智能体合作学习方法(BBMML),智能体之间通过开关函数协调了对Q表的更新,避免了无效的更新,加快了收敛速度;进一步在BBMML基础上给出了多智能体学习的进化算法(E-BBMML),智能体通过繁殖操作,能够更快的找到状态—动作空间的有效更新;最后给出了一种基于状态空间划分的多智能体在线合作学习方法(SSPML),使得智能体在特定的子空间上进行特化,从而能够较快的学习到局部最优的行为。仿真实验表明BBMML和E-BBMML能够加快收敛速度,SSPML能够取得比全局学习更好的在线学习性能。 4、基于市场机制建立了多智能体之间的协商模型(MMN),市场智能体作为中间人通过市场规则对智能体的个体选择进行综合并将综合后的结果反馈给每个智能体,这一机制较好的总结了各个终端智能体的个体信息,从而优化个体行为。以电子市场原料配置为例进行了仿真实验,实验表明MMN使得每个智能体的效用都有所改善,从而改善了系统的全局收益;进一步,为适应

论文目录

  • 第一章 绪论
  • 1.1 研究领域及应用背景
  • 1.2 多智能体系统与自治智能体
  • 1.3 多智能体强化学习
  • 1.4 多智能体的博弈学习
  • 1.5 智能体的自动协商
  • 1.6 本文的组织结构
  • 第二章 基于内省推理的协调博弈学习新方法
  • 2.1 引言
  • 2.2 基于内省推理的博弈学习
  • 2.3 实例验证与仿真
  • 2.4 电子市场智能定价
  • 2.5 小结及未来工作
  • 2.6 相关工作
  • 第三章 基于黑板模型的多智能体合作学习
  • 3.1 引言
  • 3.2 基于黑板模型的多智能体合作学习
  • 3.3 基于进化算法的多智能体学习
  • 3.4 基于状态空间划分的多智能体在线学习
  • 3.5 配货电子市场的合作学习
  • 3.6 小结及未来工作
  • 第四章 基于市场机制的多智能体协商模型
  • 4.1 引言
  • 4.2 问题描述及预备知识
  • 4.3 基于市场价格机制的协商模型
  • 4.4 基于边际效用的定价方法
  • 4.5 具有预动行为的动态原料配置
  • 4.6 小结及未来工作
  • 第五章 基于自适应模糊推理的交易智能体协商
  • 5.1 引言
  • 5.2 连续的双向拍卖协议(CDA)
  • 5.3 交易智能体的模糊规则
  • 5.4 交易智能体的自适应模糊推理
  • 5.5 仿真实验
  • 5.6 本章小结
  • 第六章 基于模糊约束规划模型的自动协商
  • 6.1 引言
  • 6.2 模糊约束求解问题
  • 6.3 PFCSP的规划模型及其求解
  • 6.4 协商模型
  • 6.5 相关工作
  • 6.6 本章小结
  • 第七章 结束语
  • 7.1 研究内容及创新点总结
  • 7.2 研究领域展望
  • 参考文献
  • 发表论文情况
  • 后记
  • 相关论文文献

    • [1].基于蒙特卡洛Q值函数的多智能体决策方法[J]. 控制与决策 2020(03)
    • [2].多智能体深度强化学习研究综述[J]. 计算机工程与应用 2020(05)
    • [3].多智能体路径规划研究进展[J]. 计算机工程 2020(04)
    • [4].数据驱动的多智能体网络鲁棒包容控制[J]. 控制理论与应用 2020(09)
    • [5].基于雷达观测的多智能体编队协作式目标跟踪[J]. 指挥信息系统与技术 2020(04)
    • [6].多智能体聚集问题研究综述[J]. 计算机应用研究 2019(06)
    • [7].多智能体强化学习综述[J]. 计算机科学 2019(08)
    • [8].基于多智能体的编队控制一致性研究[J]. 科技创新与应用 2016(35)
    • [9].新时期物联网环境下多智能体决策信息技术[J]. 山西农经 2016(14)
    • [10].牵引控制间歇通讯多智能体网络的一致性[J]. 信息与控制 2017(02)
    • [11].基于多智能体的配电台区智能决策系统研究[J]. 信息技术 2020(10)
    • [12].多智能体集合的人机交互指控系统架构研究[J]. 中国管理信息化 2020(20)
    • [13].基于切换拓扑的多智能体协作控制研究综述[J]. 计算机应用研究 2019(04)
    • [14].基于事件触发机制的多智能体网络平均一致性研究[J]. 计算机应用研究 2017(03)
    • [15].多智能体协调控制的演化博弈方法[J]. 系统科学与数学 2016(03)
    • [16].多智能体模型用于土地利用演变模拟研究进展[J]. 江西科学 2015(01)
    • [17].具有多变时滞的多智能体复杂动态网络的平均一致性[J]. 郧阳师范高等专科学校学报 2013(06)
    • [18].分布式优化的多智能体方法[J]. 控制理论与应用 2019(11)
    • [19].一种基于多智能体强化学习的流量分配算法[J]. 北京邮电大学学报 2019(06)
    • [20].一种高效率的多智能体协作学习通信机制[J]. 信息安全研究 2020(04)
    • [21].基于时滞脉冲控制的二阶多智能体一致性分析[J]. 莆田学院学报 2020(02)
    • [22].正实特征值切换拓扑的一般线性多智能体动态系统稳定性[J]. Engineering 2020(06)
    • [23].支持强化学习多智能体的网电博弈仿真平台[J]. 指挥与控制学报 2019(01)
    • [24].鲁棒优化与多智能体协调的电梯群控调度[J]. 中国新通信 2017(12)
    • [25].基于多智能体遗传算法的配电网节能降耗综合管理系统[J]. 湖南大学学报(自然科学版) 2016(04)
    • [26].事件触发控制背景下的二阶多智能体一致性探究[J]. 数学学习与研究 2019(03)
    • [27].主从多智能体网络快速随机一致性[J]. 山东大学学报(理学版) 2014(01)
    • [28].大规模多智能体仿真平台设计方法的研究[J]. 中国科学技术大学学报 2012(08)
    • [29].离散时间混合多智能体的拟平均一致性控制[J]. 智能系统学报 2012(04)
    • [30].基于多智能体社会的僵尸网络协同防御模型[J]. 微电子学与计算机 2011(03)

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

    电子市场环境下的多智能体学习与协商
    下载Doc文档

    猜你喜欢