简体中文
外观
玄学炼丹,普伦西保佑
一次喵成功
ppo 可以认为是一个提高了样本利用效率的 a2c。而从 ppo 到 mappo,需要的更多的也是工程上面的进步。
本次的 PPO 采用的是 pytorch 的实现
是在这篇源码阅读《PyTorch PPO》 的基础上讲的。
然后我自已对代码进行了一些精简和注释, 删除了 rnn 部份,对其他环境的适配也删除了, 只留下了 CartPole-v1 和 Pendulum-v1 的部份。 我的实现可以在 我的ppo仓库 找到。
普伦西 喵喵