近端策略优化(PPO)推导与代码实现
说完了策略梯度算法(PG),我们来谈谈目前更常用的、训练效率和效果更好的近端策略优化(PPO)。1. PPO推导:在此之前,我们需要先明白同策略(On-Policy)和异策略(Off-Policy)分别是什么。如上图所示,原来的PG算法就是On-Policy的典型算法。它的特点是智能体在每次更新策略后,必须使用新策略收集新的经验数据。也就是上图红字…
策略梯度算法(PG)推导与代码实现
策略梯度算法是强化学习中基础的学习算法之一,但是对于AI小白来说(比如我(#^.^#)),推导的过程还是折腾了一会儿,因为查出来的资料参差不齐,所以浏览了很多博主的见解才算弄明白了大部分的原理。于是,现在我将试着按照自己的见解进行一次完整的推导,复习理清思路的同时希望也能帮助到同样有疑惑的人。1. 蒙特卡罗 在介绍PG之前先介绍一下蒙特卡洛算法。 …
铢积寸累——我的算法刷题记录III
12.7:贪心算法-分发饼干题目:假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。对每个孩子 i,都有一个胃口值  g[i],这是能让孩子们满足胃口的饼干的最小尺寸;并且每块饼干 j,都有一个尺寸 s[j] 。如果 s[j] >= g[i],我们可以将这个饼干 j 分配给孩子 i ,这个孩子会得到满足。你…
深入剖析Stanford-CS231n-assignment1-TwoLayerNet源码
在进行深度学习入门的过程中,我阅读的书籍作者为了演示最基础的神经网络的搭建,展示了斯坦福大学计算机系的作业源码。但是这段代码在初看时其实会有不少不容易理解的地方。所以,为了理清自己的思路以及帮到和我同样对此有些凌乱的人,现在我将尽可能全面深入的解释一下TwoLayerNet代码的实现。部分源码:import sys, ossys.path.appe…
铢积寸累——我的算法刷题记录II
10.30:二叉树-二叉搜索树的搜索、二叉搜索树的验证(二叉搜索树相关)题目1-二叉搜索树的搜索:给定二叉搜索树(BST)的根节点和一个值。 你需要在BST中找到节点值等于给定值的节点。 返回以该节点为根的子树。 如果节点不存在,则返回 NULL。分析:题目本身非常简单,毕竟二叉搜索树就是为了搜索而生的嘛,只是要通过这一题复习一下二叉搜索树的定义:…
Vue3+TypeScript入门笔记
“从零开始学Vue3+Typescript!”学的不算深入,先做到能看懂别人写的前端代码,争取能够上手配合后端做些简单项目,具体内容准备在后续项目实践中慢慢学习。学习视频及笔记:尚硅谷Vue3入门到实战,最新版vue3+TypeScript前端开发教程1. 创建Vue3工程1.1 基于 vite 创建(推荐)(基于 vue-cli 创建也行,但在此…
HTML+CSS+JavaScript基础整理
“谁说这前端不行啊?这前端可太棒了!”本人学习前端的契机是在做一个关于网盘的前后端项目时,完全看不懂前端给的代码(),所以决定奋发图强学习一下前端的知识,于是从此将开始我学习前端的伟大征程()!不过话虽如此,对于HTML+CSS+JavaScript这三大基础组件,我也只是入个门,做个简单了解,后续涉及的Vue和TypeScript会着重学习。学习…
Python基础速通
从今天开始我将速通Python的一些基础语法!当未来遇到与Python相关的需求时,可以立刻上手学习进阶内容,为后续的进一步学习做个铺垫。由于我有其他语言基础,所以很多我觉得相似或相同的知识点不会被记录,本文只是针对自己复习用。学习参考:Python 语法及入门 (超全超详细) 专为Python零基础 一篇博客让你完全掌握Python语法一、Pyt…
过去、未来与当下

总觉得自己在对未来失去目标感后就会变得怀旧,不过说白了就是迷茫了就会有点内耗哈哈,想必不内耗、注重当下会比现在走得更远吧。

1029 日 , 2024 16:26
铢积寸累——我的算法刷题记录I
“寒女之丝,铢积寸累。天步所临,云蒸雷起。”该文章仅用来记录我自己刷过的算法题,给每日一题做总结的同时顺带复习,如有任何问题请在底下评论区留言。 刷题网站:leetcode,牛客 刷题顺序及部分题解:代码随想录8.20:数组-二分查找题目:给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target  ,写一个函数搜索 nums…