深度学习归档 - ARE星辰的博客

分类：深度学习

4 篇文章

公告

博客正在初始化开发中，功能尚不完善，请见谅。

ARE星辰

---程序员！堂堂登场！---

GitHub

Gitee

二次规划（QP）求解器Gurobi基础用法速查表

2025-3-20 21:10

深度学习

392 字

2 分钟

Gurobi求解二次规划（QP）问题的基础用法速查表： 1. 导入和安装： pip install gurobipy import gurobipy as gp from gurobipy import GRB 2. 模型初始化 model = gp.Model(name) 创建新模型，name 为模型名称。 model.dispose() 释放模…

近端策略优化（PPO）推导与代码实现

2024-12-22 21:49

深度学习

149

1408 字

14 分钟

说完了策略梯度算法（PG），我们来谈谈目前更常用的、训练效率和效果更好的近端策略优化（PPO）。1. PPO推导：在此之前，我们需要先明白同策略（On-Policy）和异策略（Off-Policy）分别是什么。如上图所示，原来的PG算法就是On-Policy的典型算法。它的特点是智能体在每次更新策略后，必须使用新策略收集新的经验数据。也就是上图红字…

策略梯度算法（PG）推导与代码实现

2024-12-20 16:59

深度学习

151

2175 字

11 分钟

策略梯度算法是强化学习中基础的学习算法之一，但是对于AI小白来说（比如我(#^.^#)），推导的过程还是折腾了一会儿，因为查出来的资料参差不齐，所以浏览了很多博主的见解才算弄明白了大部分的原理。于是，现在我将试着按照自己的见解进行一次完整的推导，复习理清思路的同时希望也能帮助到同样有疑惑的人。1. 蒙特卡罗在介绍PG之前先介绍一下蒙特卡洛算法。 …

深入剖析Stanford-CS231n-assignment1-TwoLayerNet源码

2024-12-03 16:13

深度学习

786

1119 字

5 分钟

在进行深度学习入门的过程中，我阅读的书籍作者为了演示最基础的神经网络的搭建，展示了斯坦福大学计算机系的作业源码。但是这段代码在初看时其实会有不少不容易理解的地方。所以，为了理清自己的思路以及帮到和我同样对此有些凌乱的人，现在我将尽可能全面深入的解释一下TwoLayerNet代码的实现。部分源码：import sys, ossys.path.appe…

分类： 深度学习

分类：深度学习