ppo 可以认为是一个提高了样本利用效率的 a2c。而从 ppo 到 mappo,需要的更多的也是工程上面的进步。
本次的 PPO 采用的是 pytorch 的实现
是在这篇源码阅读《PyTorch PPO》 的基础上讲的。
然后我自已对代码进行了一些精简和注释, 删除了 rnn 部份,对其他环境的适配也删除了, 只留下了 CartPole-v1 和 Pendulum-v1 的部份。 我的实现可以在 我的ppo仓库 找到。
开始了文本方向的神经网络,之前的卷积看完还是很不知所云的, 对于为什么这样会更好还是只有一个大概的解释,估计文本这方面也不遑多让吧。
I have started learing language Models, but I'm still confused after studying Convolutional Neural Networks. The explanations provided are quite vague, and I suspect Language Models might be just as challenging as CNNs
以前一直是内网访问, 很少考虑外网访问的安全性问题, 最近开始弄服务器之后才发现这么多问题, iptables 是一个很好的工具, 可以阻止很多奇怪的访问, 但是也被docker透烂了, 会加一些奇怪的规则, 导致可以直接ip:端口号访问, 让我措手不及. 现在弄到了两种解决的办法