说完了策略梯度算法(PG),我们来谈谈目前更常用的、训练效率和效果更好的近端策略优化(PPO)。1. PPO推导:在此之前,我们需要先明白同策略(On-Policy)和异策略(Off-Policy)分别是什么。如上图所示,原来的PG算法就是On-Policy的典型算法。它的特点是智能体在每次更新策略后,必须使用新策略收集新的经验数据。也就是上图红字…
策略梯度算法是强化学习中基础的学习算法之一,但是对于AI小白来说(比如我(#^.^#)),推导的过程还是折腾了一会儿,因为查出来的资料参差不齐,所以浏览了很多博主的见解才算弄明白了大部分的原理。于是,现在我将试着按照自己的见解进行一次完整的推导,复习理清思路的同时希望也能帮助到同样有疑惑的人。1. 蒙特卡罗 在介绍PG之前先介绍一下蒙特卡洛算法。 …
12.7:贪心算法-分发饼干题目:假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。对每个孩子 i,都有一个胃口值 g[i],这是能让孩子们满足胃口的饼干的最小尺寸;并且每块饼干 j,都有一个尺寸 s[j] 。如果 s[j] >= g[i],我们可以将这个饼干 j 分配给孩子 i ,这个孩子会得到满足。你…
在进行深度学习入门的过程中,我阅读的书籍作者为了演示最基础的神经网络的搭建,展示了斯坦福大学计算机系的作业源码。但是这段代码在初看时其实会有不少不容易理解的地方。所以,为了理清自己的思路以及帮到和我同样对此有些凌乱的人,现在我将尽可能全面深入的解释一下TwoLayerNet代码的实现。部分源码:import sys, ossys.path.appe…
10.30:二叉树-二叉搜索树的搜索、二叉搜索树的验证(二叉搜索树相关)题目1-二叉搜索树的搜索:给定二叉搜索树(BST)的根节点和一个值。 你需要在BST中找到节点值等于给定值的节点。 返回以该节点为根的子树。 如果节点不存在,则返回 NULL。分析:题目本身非常简单,毕竟二叉搜索树就是为了搜索而生的嘛,只是要通过这一题复习一下二叉搜索树的定义:…
“从零开始学Vue3+Typescript!”学的不算深入,先做到能看懂别人写的前端代码,争取能够上手配合后端做些简单项目,具体内容准备在后续项目实践中慢慢学习。学习视频及笔记:尚硅谷Vue3入门到实战,最新版vue3+TypeScript前端开发教程1. 创建Vue3工程1.1 基于 vite 创建(推荐)(基于 vue-cli 创建也行,但在此…
“谁说这前端不行啊?这前端可太棒了!”本人学习前端的契机是在做一个关于网盘的前后端项目时,完全看不懂前端给的代码(),所以决定奋发图强学习一下前端的知识,于是从此将开始我学习前端的伟大征程()!不过话虽如此,对于HTML+CSS+JavaScript这三大基础组件,我也只是入个门,做个简单了解,后续涉及的Vue和TypeScript会着重学习。学习…
从今天开始我将速通Python的一些基础语法!当未来遇到与Python相关的需求时,可以立刻上手学习进阶内容,为后续的进一步学习做个铺垫。由于我有其他语言基础,所以很多我觉得相似或相同的知识点不会被记录,本文只是针对自己复习用。学习参考:Python 语法及入门 (超全超详细) 专为Python零基础 一篇博客让你完全掌握Python语法一、Pyt…
“寒女之丝,铢积寸累。天步所临,云蒸雷起。”该文章仅用来记录我自己刷过的算法题,给每日一题做总结的同时顺带复习,如有任何问题请在底下评论区留言。 刷题网站:leetcode,牛客 刷题顺序及部分题解:代码随想录8.20:数组-二分查找题目:给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target ,写一个函数搜索 nums…
本文主要用于帮自己复习微服务,因为分布式系统和微服务本身的庞大和复杂,笔者很难在大学期间得到最佳实践,所以笔记中可能也存在不少疏漏,如有问题,请在下方留言,如果对你有帮助,那就太好啦(*^▽^*)。学习视频来源:B站讲的最好的Spring Cloud Alibaba教程全集(2022最新版) 部分笔记参考:SpringCloud Alibaba 从…