陈大鑫编辑
丛末还记得三年前DeepMind研究的AI跑酷吗?火柴人成功突破墙壁的障碍,兴奋的手舞足蹈:火柴人在学习跑、跳(jump):(火柴人就是agent,中译为智能体,这里表现出来的就是在模拟器环境下的智能小人。)“AI跑酷”是DeepMind在AlphaGo之后开发的另一项强化学习算法。然而当时的强化学习算法只能每次使用一种策略来训练一个智能体模型。那如果想要一次训练几十上百种智能体模型(如上图所示)该怎么办?难道要训练几百次吗?近日,一篇发表在ICML上的论文提出了一种方法:仅仅需要一种策略就可以同时训练所有的智能体。这篇论文在Twitter上获得了很大的