欢迎访问本站!

首页快讯正文

usdt自动充提教程(www.caibao.it):听说你的多智能体强化学习算法不work?你用对MAPPO了吗

admin2021-03-0680

USDT自动充值

菜宝钱包(caibao.it)是使用TRC-20协议的Usdt第三方支付平台,Usdt收款平台、Usdt自动充提平台、usdt跑分平台。免费提供入金通道、Usdt钱包支付接口、Usdt自动充值接口、Usdt无需实名寄售回收。菜宝Usdt钱包一键生成Usdt钱包、一键调用API接口、一键无实名出售Usdt。

原题目:听说你的多智能体强化学习算法不work?你用对MAPPO了吗

机械之心公布

机械之心编辑部

清华和UC伯克利团结研究发现,在不举行任何算法或者网络架构更改的情形下,用 MAPPO(Multi-Agent PPO)在 3 个具有代表性的多智能体义务(Multi-Agent Particle World, StarCraftII, Hanabi)中取得了与 SOTA 算法相当的性能。

近些年,多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)取得了突破性希望,例如 DeepMind 开发的 AlphaStar 在星际争霸 II 中打败了职业星际玩家,超过了 99.8% 的人类玩家;OpenAI Five 在 DOTA2 中多次击败世界冠军队伍,是首个在电子竞技竞赛中击败冠军的人工智能系统;以及在仿真物理环境 hide-and-seek 中训练出像人一样可以使用工具的智能体。我们提到的这些智能体大多是接纳 on-policy 算法(例如 IMPALA[8])训练获得的,这就意味着需要很高的并行度和重大的算力支持,例如 OpenAI Five 消耗了 12.8 万块 CPU 和 256 块 P100 GPU 来网络数据样本和训练网络。

然而,大多数的学术机构很难配备这个量级的盘算资源。因此,MARL 领域险些已经杀青共识:与 on-policy 算法(例如 PPO[3])相比,在盘算资源有限的情形下,off-policy 算法(例如 MADDPG[5],QMix[6])因其更高的采样效率更适合用来训练智能体,而且也演化出一系列解决某些具体问题(domain-specific)的 SOTA 算法(例如 SAD[9],RODE[7])。

然则,来自清华大学与 UC 伯克利的研究者在一篇论文中针对这一传统认知提出了差异的看法:MARL 算法需要综合思量数据样本效率(sample efficiency)和算法运行效率(wall-clock runtime efficiency)。在有限盘算资源的条件下,与 off-policy 算法相比,on-policy 算法 --MAPPO(Multi-Agent PPO)具有显著高的算法运行效率和与之相当(甚至更高)的数据样本效率。有趣的是,研究者发现只需要对 MAPPO 举行极小的超参搜索,在不举行任何算法或者网络架构更改的情形下就可以取得与 SOTA 算法相当的性能。更进一步地,还贴心地给出了 5 条可以提升 MAPPO 性能的主要建议,而且开源了一套优化后的 MARL 算法源码(代码地址:

https://github.com/marlbenchmark/on-policy)。

以是,若是你的 MARL 算法一直不 work,不妨参考一下这项研究,有可能是你没有用对算法;若是你专注于研究 MARL 算法,不妨实验将 MAPPO 作为 baseline,说不定可以提高义务基准;若是你处于 MARL 研究入门阶段,这套源码值得拥有,听说开发完整,简朴易上手。这篇论文由清华大学的汪玉、吴翼等人与 UC 伯克利的研究者互助完成。研究者后续会连续开源更多优化后的算法及义务(堆栈指路:

https://github.com/marlbenchmark)

论文链接:

https://arxiv.org/abs/2103.01955

什么是 MAPPO

PPO(Proximal Policy Optimization)[4]是一个现在异常盛行的单智能体强化学习算法,也是 OpenAI 在举行实验时首选的算法,可见其适用性之广。PPO 接纳的是经典的 actor-critic 架构。其中,actor 网络,也称之为 policy 网络,吸收局部观察(obs)并输出动作(action);critic 网络,也称之为 value 网络,吸收状态(state)输出动作价值(value),用于评估 actor 网络输出动作的利害。可以直观理解为评委(critic)在给演员(actor)的演出(action)打分(value)。MAPPO(Multi-agent PPO)是 PPO 算法应用于多智能体义务的变种,同样接纳 actor-critic 架构,差异之处在于此时 critic 学习的是一个中心价值函数(centralized value function),简而言之,此时 critic 能够观察到全局信息(global state),包罗其他 agent 的信息和环境的信息。

实验环境

接下来先容一下论文中的实验环境。论文选择了 3 个具有代表性的协作 Multi-agent 义务,之以是选择协作义务的一个主要原因是互助义务具有明确的评价指标,便于对差异的算法举行对照。

第一个环境是 OpenAI 开源的 Multi-agent Particle World(MPE)义务(源代码指路:

https://github.com/openai/multiagent-particle-envs)[1],轻量级的环境和抽象多样的义务设定使之成为快速验证 MARL 算法的首选测试平台。在 MPE 中有 3 个协作义务,分别是 Spread,Comm 和 Reference,如图 1 所示。

图 1:MPE 环境中的 3 个子义务:Spread,Comm 和 Reference

第二个环境是 MARL 领域著名的 StarCraftII(星际争霸 II)义务(源代码:

https://github.com/oxwhirl/ *** ac),如图 2 所示。这一义务最初由 M. Samvelyan 等人提出 [2],提供了 23 个实验舆图,agent 数目从 2 到 27 不等,我方 agent 需要举行协作来打败敌方 agent 以赢得游戏。自该义务公布以来,有许多研究人员针对其特点举行了算法研究,例如经典算法 QMix[6] 以及最新揭晓的 RODE[7]等等。由于 StarCraftII 经过了版本迭代,而且差异版本之间性能有差距,稀奇说明,这篇论文接纳的是最新版本 SC2.4.10。

图 2:StarCraftII 环境中的 2 个代表性舆图:Corridor 和 2c vs. 64zg

第三个环境是由 Nolan Bard 等人 [3] 在 2019 年提出的一个纯协作义务 Hanabi(源代码:

https://github.com/deepmind/hanabi-learning-environment),Hanabi 是一个 turn-based 的纸牌类游戏,也就是每一轮只有一个玩家可以出牌,相较于之前的多智能体义务,Hanabi 的一个主要特点是纯互助,每个玩家需要对其他玩家的意图举行推理,完成协作才气获得分数,Hanabi 的玩家数可以是 2-5 个,图 3 是 4 个玩家的义务示意图,感兴趣的读者可以自己实验玩一下。

图 3:4 个玩家的 Hanabi-Full 义务示意图

实验效果

首先来看一下论文给出的实验效果,稀奇注意,论文所有的实验都在一台主机中完成,该主机的设置是 256 GB 内存, 一块 64 核 CPU 和一块 GeForce RTX 3090 24GB 显卡。另外,研究者示意,本文的所有的算法都举行了微调(fine-tune),以是本文中的复现的某些实验效果会优于原论文。

(1)MPE 环境

,

Usdt第三方支付平台

菜宝钱包(www.caibao.it)是使用TRC-20协议的Usdt第三方支付平台,Usdt收款平台、Usdt自动充提平台、usdt跑分平台。免费提供入金通道、Usdt钱包支付接口、Usdt自动充值接口、Usdt无需实名寄售回收。菜宝Usdt钱包一键生成Usdt钱包、一键调用API接口、一键无实名出售Usdt。

,

图 4 展示了在 MPE 中差异算法的数据样本效率和算法运行效率对比,其中 IPPO(Independent PPO)示意的是 critic 学习一个分布式的价值函数(decentralized value function),即 critic 与 actor 的输入均为局部观察,IPPO 和 MAPPO 超参保持一致;MADDPG[5]是 MARL 领域十分盛行的 off-policy 算法,也是针对 MPE 开发的一个算法,QMix[6]是针对 StarCraftII 开发的 MARL 算法,也是 StarCraftII 中的常用 baseline。

从图 4 可以看出与其他算法相比,MAPPO 不仅具有相当的数据样本效率和性能显示(performance)(图(a)),同时还具有显著高的算法运行效率(图(b))。

图 4:在 MPE 中差异算法的数据样本效率和算法运行效率对比

(2)StarCraftII 环境

表 1 展示了 MAPPO 与 IPPO,QMix 以及针对 StarCraftII 的开发的 SOTA 算法 RODE 的胜率对比,在截断至 10M 数据的情形下,MAPPO 在 19/23 个舆图的胜率都到达了 SOTA,除了 3s5z vs. 3s6z,其他舆图与 SOTA 算法的差距小于 5%,而 3s5z vs. 3s6z 在截断至 10M 时并未完全收敛,若是截断至 25M,则可以到达 91% 的胜率。

图 5 示意在 StarCraftII 中差异算法的数据样本效率和算法运行效率对比。可以看出 MAPPO 现实上与 QMix 和 RODE 具有相当的数据样本效率,以及更快的算法运行效率。由于在现实训练 StarCraftII 义务的时刻仅接纳 8 个并行环境,而在 MPE 义务中接纳了 128 个并行环境,以是图 5 的算法运行效率没有图 4 差距那么大,然则即便如此,依然可以看出 MAPPO 惊人的性能显示和运行效率。

表 1:差异算法在 StarCraftII 的 23 个舆图中的胜率对比,其中 cut 符号示意将 MAPPO 和 QMix 截断至与 RODE 相同的步数,目的是为了与 SOTA 算法公正对比。

(3)Hanabi 环境

SAD 是针对 Hanabi 义务开发的一个 SOTA 算法,值得注意的是,SAD 的得分取自原论文,原作者跑了 13 个随机种子,每个种子需要约 10B 数据,而由于时间限制,MAPPO 只跑了 4 个随机种子,每个种子约 7.2B 数据。从表 2 可以看出 MAPPO 依然可以到达与 SAD 相当的得分。

表 2:MAPPO 和 SAD 在 2 个玩家的 Hanabi-Full 义务的得分对比。

5 条小建议

看完了论文给出的实验效果,那么,回到最最先的问题,你用对 MAPPO 了吗?

研究者发现,即便多智能体义务与单智能体义务差异很大,然则之前在其他单智能体义务中的给出的 PPO 实现建议依然很有用,例如 input normalization,value clip,max gradient norm clip,orthogonal initialization,GAE normalization 等。然则除此之外,研究者分外给出了针对 MARL 领域以及其他易被忽视的因素的 5 条建议。

Value normalization: 研究者接纳 PopArt 对 value 举行 normalization,而且指出使用 PopArt 有益无害。

Agent Specific Global State: 接纳 agent-specific 的全局信息,制止全局信息遗漏以及维度过高。值得一提的是,研究者发现 StarCraftII 中原有的全局信息存在信息遗漏,甚至其所包罗的信息少于 agent 的局部观察,这也是直接将 MAPPO 应用在 StarCraftII 中性能显示不佳的主要原因。

Training Data Usage: 简朴义务中推荐使用 15 training epochs,而对于较难的义务,实验 10 或者 5 training epochs。除此之外,只管使用一整份的训练数据,而不要切成许多小份(mini-batch)训练。

Action Masking: 在多智能体义务中经常泛起 agent 无法执行某些 action 的情形,建议无论前向执行照样反向流传时,都应将这些无效动作屏障掉,使其不介入动作概率盘算。

Death Masking: 在多智能体义务中,也经常会泛起某个 agent 或者某些 agents 中途死掉的情形(例如 StarCraftII)。当 agent 殒命后,仅保留其 agent id,将其他信息屏障能够学得加倍准确的状态价值函数。

更多的实验细节和剖析可以查看论文原文。

参考链接:

[1] Lowe, R., Wu, Y., Tamar, A., Harb, J., Abbeel, P., and Mor-datch, I. Multi-agent actor-critic for mixed cooperative-competitive environments.Neural Information Process-ing Systems (NIPS), 2017.

[2] M. Samvelyan, T. Rashid, C. Schroeder de Witt, G. Farquhar, N. Nardelli, T.G.J. Rudner, C.-M. Hung, P.H.S. Torr, J. Foerster, S. Whiteson. The StarCraft Multi-Agent Challenge, CoRR abs/1902.04043, 2019.

[3] Bard, N., Foerster, J. N., Chandar, S., Burch, N., Lanctot,M., Song, H. F., Parisotto, E., Dumoulin, V., Moitra, S.,Hughes, E., et al. The Hanabi challenge: A new frontierfor AI research.Artificial Intelligence, 280:103216, 2020.

[4] Schulman, J., Wolski, F., Dhariwal, P., Radford, A., andKlimov, O. Proximal policy optimization algorithms.CoRR, abs/1707.06347, 2017.

[5] Lowe, R., Wu, Y., Tamar, A., Harb, J., Abbeel, P., and Mor-datch, I. Multi-agent actor-critic for mixed cooperative-competitive environments.Neural Information Process-ing Systems (NIPS), 2017.

[6] Rashid, T., Samvelyan, M., Schroeder, C., Farquhar, G.,Foerster, J., and Whiteson, S. QMIX: Monotonic valuefunction factorisation for deep multi-agent reinforcementlearning. volume 80 ofProceedings of Machine LearningResearch, pp. 4295–4304. PMLR, 10–15 Jul 2018.

[7] Wang, T., Gupta, T., Mahajan, A., Peng, B., Whiteson, S.,and Zhang, C. RODE: Learning roles to decompose multi-agent tasks. InInternational Conference on LearningRepresentations, 2021.

[8] Espeholt, L., Soyer, H., Munos, R., Simonyan, K., Mnih, V., Ward, T., Doron, Y., Firoiu, V., Harley, T., Dunning,I., et al. Impala: Scalable distributed deep-rl with importance weighted actor-learner architectures. In International Conference on Machine Learning, pp. 1407–1416, 2018.

网友评论