说完了策略梯度算法(PG),我们来谈谈目前更常用的、训练效率和效果更好的近端策略优化(PPO)。1. PPO推导:在此之前,我们需要先明白同策略(On-Policy)和异策略(Off-Policy)分别是什么。如上图所示,原来的PG算法就是On-Policy的典型算法。它的特点是智能体在每次更新策略后,必须使用新策略收集新的经验数据。也就是上图红字…
策略梯度算法是强化学习中基础的学习算法之一,但是对于AI小白来说(比如我(#^.^#)),推导的过程还是折腾了一会儿,因为查出来的资料参差不齐,所以浏览了很多博主的见解才算弄明白了大部分的原理。于是,现在我将试着按照自己的见解进行一次完整的推导,复习理清思路的同时希望也能帮助到同样有疑惑的人。1. 蒙特卡罗 在介绍PG之前先介绍一下蒙特卡洛算法。 …
在进行深度学习入门的过程中,我阅读的书籍作者为了演示最基础的神经网络的搭建,展示了斯坦福大学计算机系的作业源码。但是这段代码在初看时其实会有不少不容易理解的地方。所以,为了理清自己的思路以及帮到和我同样对此有些凌乱的人,现在我将尽可能全面深入的解释一下TwoLayerNet代码的实现。部分源码:import sys, ossys.path.appe…