Skip to content

Commit c024c44

Browse files
committed
Site updated: 2026-02-25 12:56:13
1 parent 1d4e158 commit c024c44

164 files changed

Lines changed: 1331 additions & 429 deletions

File tree

Some content is hidden

Large Commits have some content hidden by default. Use the searchbox below for content that may be hidden.

2025/11/03/Python导包失败原因及解决方法/index.html

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -367,9 +367,9 @@ <h1 id="分析与解决方案">分析与解决方案</h1>
367367
<article class="post-prev col-6">
368368

369369

370-
<a href="/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%BA%8C%EF%BC%89%E8%B4%9D%E5%B0%94%E6%9B%BC%E6%96%B9%E7%A8%8B/" title="强化学习学习笔记(二)贝尔曼方程">
370+
<a href="/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%BA%8C%EF%BC%89%E8%B4%9D%E5%B0%94%E6%9B%BC%E6%96%B9%E7%A8%8B/" title="强化学习笔记(二)贝尔曼方程">
371371
<i class="iconfont icon-arrowleft"></i>
372-
<span class="hidden-mobile">强化学习学习笔记(二)贝尔曼方程</span>
372+
<span class="hidden-mobile">强化学习笔记(二)贝尔曼方程</span>
373373
<span class="visible-mobile">上一篇</span>
374374
</a>
375375

Original file line numberDiff line numberDiff line change
@@ -19,21 +19,21 @@
1919
<meta name="author" content="">
2020
<meta name="keywords" content="交通">
2121

22-
<meta name="description" content="强化学习学习笔记(一)基础概念 本笔记是b站的 西湖大学强化学习课程 的笔记。并附带一些个人的思考。 # 一、基础概念 强化学习各章节 基础概念 贝尔曼方程 贝尔曼最优方程 值迭代&amp;策略迭代 蒙特卡洛学习 随机估计 时序差分学习 值函数估计 策略梯度方法 Actor-Critic 方法 章节关系 章节1-3 强化学习的基础工具 章节4-10 强化学习的">
22+
<meta name="description" content="强化学习笔记(一)基础概念 本笔记是b站的 西湖大学强化学习课程 的笔记。并附带一些个人的思考。 # 一、基础概念 强化学习各章节 基础概念 贝尔曼方程 贝尔曼最优方程 值迭代&amp;策略迭代 蒙特卡洛学习 随机估计 时序差分学习 值函数估计 策略梯度方法 Actor-Critic 方法 章节关系 章节1-3 强化学习的基础工具 章节4-10 强化学习的算法">
2323
<meta property="og:type" content="article">
24-
<meta property="og:title" content="强化学习学习笔记(一)基础概念">
25-
<meta property="og:url" content="https://runsstudio.github.io/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%B8%80%EF%BC%89%E5%9F%BA%E7%A1%80%E6%A6%82%E5%BF%B5/index.html">
24+
<meta property="og:title" content="强化学习笔记(一)基础概念">
25+
<meta property="og:url" content="https://runsstudio.github.io/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%B8%80%EF%BC%89%E5%9F%BA%E7%A1%80%E6%A6%82%E5%BF%B5/index.html">
2626
<meta property="og:site_name" content="Run&#39;s Studio">
27-
<meta property="og:description" content="强化学习学习笔记(一)基础概念 本笔记是b站的 西湖大学强化学习课程 的笔记。并附带一些个人的思考。 # 一、基础概念 强化学习各章节 基础概念 贝尔曼方程 贝尔曼最优方程 值迭代&amp;策略迭代 蒙特卡洛学习 随机估计 时序差分学习 值函数估计 策略梯度方法 Actor-Critic 方法 章节关系 章节1-3 强化学习的基础工具 章节4-10 强化学习的">
27+
<meta property="og:description" content="强化学习笔记(一)基础概念 本笔记是b站的 西湖大学强化学习课程 的笔记。并附带一些个人的思考。 # 一、基础概念 强化学习各章节 基础概念 贝尔曼方程 贝尔曼最优方程 值迭代&amp;策略迭代 蒙特卡洛学习 随机估计 时序差分学习 值函数估计 策略梯度方法 Actor-Critic 方法 章节关系 章节1-3 强化学习的基础工具 章节4-10 强化学习的算法">
2828
<meta property="og:locale" content="zh_CN">
2929
<meta property="article:published_time" content="2026-01-04T12:10:57.000Z">
30-
<meta property="article:modified_time" content="2026-01-04T12:30:32.574Z">
30+
<meta property="article:modified_time" content="2026-02-25T03:17:16.600Z">
3131
<meta property="article:tag" content="交通">
3232
<meta name="twitter:card" content="summary_large_image">
3333

3434

3535

36-
<title>强化学习学习笔记(一)基础概念 - Run&#39;s Studio</title>
36+
<title>强化学习笔记(一)基础概念 - Run&#39;s Studio</title>
3737

3838
<link rel="stylesheet" href="https://lib.baomitu.com/twitter-bootstrap/4.6.1/css/bootstrap.min.css" />
3939

@@ -199,7 +199,7 @@
199199
<div class="banner-text text-center fade-in-up">
200200
<div class="h2">
201201

202-
<span id="subtitle" data-typed-text="强化学习学习笔记(一)基础概念"></span>
202+
<span id="subtitle" data-typed-text="强化学习笔记(一)基础概念"></span>
203203

204204
</div>
205205

@@ -222,7 +222,7 @@
222222
<span class="post-meta mr-2">
223223
<i class="iconfont icon-chart"></i>
224224

225-
721
225+
719
226226

227227
</span>
228228

@@ -233,7 +233,7 @@
233233

234234

235235

236-
7 分钟
236+
6 分钟
237237

238238
</span>
239239

@@ -270,12 +270,12 @@
270270
<div class="container nopadding-x-md" id="board-ctn">
271271
<div id="board">
272272
<article class="post-content mx-auto">
273-
<h1 id="seo-header">强化学习学习笔记(一)基础概念</h1>
273+
<h1 id="seo-header">强化学习笔记(一)基础概念</h1>
274274

275275

276276
<div class="markdown-body">
277277

278-
<h1 id="强化学习学习笔记一基础概念">强化学习学习笔记(一)基础概念</h1>
278+
<h1 id="强化学习笔记一基础概念">强化学习笔记(一)基础概念</h1>
279279
<p>本笔记是b站的 <a
280280
target="_blank" rel="noopener" href="https://www.bilibili.com/video/BV1sd4y167NS">西湖大学强化学习课程</a>
281281
的笔记。并附带一些个人的思考。 # 一、基础概念</p>
@@ -353,8 +353,8 @@ <h1 id="二核心笔记">二、核心笔记</h1>
353353

354354
<div class="license-box my-3">
355355
<div class="license-title">
356-
<div>强化学习学习笔记(一)基础概念</div>
357-
<div>https://runsstudio.github.io/2026/01/04/强化学习学习笔记(一)基础概念/</div>
356+
<div>强化学习笔记(一)基础概念</div>
357+
<div>https://runsstudio.github.io/2026/01/04/强化学习笔记(一)基础概念/</div>
358358
</div>
359359
<div class="license-meta">
360360

@@ -403,8 +403,8 @@ <h1 id="二核心笔记">二、核心笔记</h1>
403403
<article class="post-next col-6">
404404

405405

406-
<a href="/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%BA%8C%EF%BC%89%E8%B4%9D%E5%B0%94%E6%9B%BC%E6%96%B9%E7%A8%8B/" title="强化学习学习笔记(二)贝尔曼方程">
407-
<span class="hidden-mobile">强化学习学习笔记(二)贝尔曼方程</span>
406+
<a href="/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%BA%8C%EF%BC%89%E8%B4%9D%E5%B0%94%E6%9B%BC%E6%96%B9%E7%A8%8B/" title="强化学习笔记(二)贝尔曼方程">
407+
<span class="hidden-mobile">强化学习笔记(二)贝尔曼方程</span>
408408
<span class="visible-mobile">下一篇</span>
409409
<i class="iconfont icon-arrowright"></i>
410410
</a>
Original file line numberDiff line numberDiff line change
@@ -21,23 +21,23 @@
2121

2222
<meta name="description" content="策略评估的方式 如何不断的改进策略?用什么来评估:答案是基于return进行评估。 return是一条控制轨迹能够获得的奖励或折扣奖励的和,能够用来评估当前状态的价值。 状态的价值 举个例子,在Grid机器人里,现在有3条路径: 路径1:智能体从S1到S3,奖励是0,从S3到S4,奖励是1,呆在S4,一直有奖励1. 路径2:智能体从S1到S2,奖励是-1,从S2到S4,奖励是1,呆在">
2323
<meta property="og:type" content="article">
24-
<meta property="og:title" content="强化学习学习笔记(二)贝尔曼方程">
25-
<meta property="og:url" content="https://runsstudio.github.io/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%BA%8C%EF%BC%89%E8%B4%9D%E5%B0%94%E6%9B%BC%E6%96%B9%E7%A8%8B/index.html">
24+
<meta property="og:title" content="强化学习笔记(二)贝尔曼方程">
25+
<meta property="og:url" content="https://runsstudio.github.io/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%BA%8C%EF%BC%89%E8%B4%9D%E5%B0%94%E6%9B%BC%E6%96%B9%E7%A8%8B/index.html">
2626
<meta property="og:site_name" content="Run&#39;s Studio">
2727
<meta property="og:description" content="策略评估的方式 如何不断的改进策略?用什么来评估:答案是基于return进行评估。 return是一条控制轨迹能够获得的奖励或折扣奖励的和,能够用来评估当前状态的价值。 状态的价值 举个例子,在Grid机器人里,现在有3条路径: 路径1:智能体从S1到S3,奖励是0,从S3到S4,奖励是1,呆在S4,一直有奖励1. 路径2:智能体从S1到S2,奖励是-1,从S2到S4,奖励是1,呆在">
2828
<meta property="og:locale" content="zh_CN">
29-
<meta property="og:image" content="https://runsstudio.github.io/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%BA%8C%EF%BC%89%E8%B4%9D%E5%B0%94%E6%9B%BC%E6%96%B9%E7%A8%8B/image.png">
30-
<meta property="og:image" content="https://runsstudio.github.io/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%BA%8C%EF%BC%89%E8%B4%9D%E5%B0%94%E6%9B%BC%E6%96%B9%E7%A8%8B/image-1.png">
31-
<meta property="og:image" content="https://runsstudio.github.io/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%BA%8C%EF%BC%89%E8%B4%9D%E5%B0%94%E6%9B%BC%E6%96%B9%E7%A8%8B/image-3.png">
29+
<meta property="og:image" content="https://runsstudio.github.io/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%BA%8C%EF%BC%89%E8%B4%9D%E5%B0%94%E6%9B%BC%E6%96%B9%E7%A8%8B/image.png">
30+
<meta property="og:image" content="https://runsstudio.github.io/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%BA%8C%EF%BC%89%E8%B4%9D%E5%B0%94%E6%9B%BC%E6%96%B9%E7%A8%8B/image-1.png">
31+
<meta property="og:image" content="https://runsstudio.github.io/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%BA%8C%EF%BC%89%E8%B4%9D%E5%B0%94%E6%9B%BC%E6%96%B9%E7%A8%8B/image-3.png">
3232
<meta property="article:published_time" content="2026-01-04T12:10:57.000Z">
33-
<meta property="article:modified_time" content="2026-01-04T13:06:25.516Z">
33+
<meta property="article:modified_time" content="2026-02-25T03:17:09.083Z">
3434
<meta property="article:tag" content="交通">
3535
<meta name="twitter:card" content="summary_large_image">
36-
<meta name="twitter:image" content="https://runsstudio.github.io/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%BA%8C%EF%BC%89%E8%B4%9D%E5%B0%94%E6%9B%BC%E6%96%B9%E7%A8%8B/image.png">
36+
<meta name="twitter:image" content="https://runsstudio.github.io/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%BA%8C%EF%BC%89%E8%B4%9D%E5%B0%94%E6%9B%BC%E6%96%B9%E7%A8%8B/image.png">
3737

3838

3939

40-
<title>强化学习学习笔记(二)贝尔曼方程 - Run&#39;s Studio</title>
40+
<title>强化学习笔记(二)贝尔曼方程 - Run&#39;s Studio</title>
4141

4242
<link rel="stylesheet" href="https://lib.baomitu.com/twitter-bootstrap/4.6.1/css/bootstrap.min.css" />
4343

@@ -205,7 +205,7 @@
205205
<div class="banner-text text-center fade-in-up">
206206
<div class="h2">
207207

208-
<span id="subtitle" data-typed-text="强化学习学习笔记(二)贝尔曼方程"></span>
208+
<span id="subtitle" data-typed-text="强化学习笔记(二)贝尔曼方程"></span>
209209

210210
</div>
211211

@@ -276,7 +276,7 @@
276276
<div class="container nopadding-x-md" id="board-ctn">
277277
<div id="board">
278278
<article class="post-content mx-auto">
279-
<h1 id="seo-header">强化学习学习笔记(二)贝尔曼方程</h1>
279+
<h1 id="seo-header">强化学习笔记(二)贝尔曼方程</h1>
280280

281281

282282
<div class="markdown-body">
@@ -410,8 +410,8 @@ <h1 id="状态的价值">状态的价值</h1>
410410

411411
<div class="license-box my-3">
412412
<div class="license-title">
413-
<div>强化学习学习笔记(二)贝尔曼方程</div>
414-
<div>https://runsstudio.github.io/2026/01/04/强化学习学习笔记(二)贝尔曼方程/</div>
413+
<div>强化学习笔记(二)贝尔曼方程</div>
414+
<div>https://runsstudio.github.io/2026/01/04/强化学习笔记(二)贝尔曼方程/</div>
415415
</div>
416416
<div class="license-meta">
417417

@@ -450,9 +450,9 @@ <h1 id="状态的价值">状态的价值</h1>
450450
<article class="post-prev col-6">
451451

452452

453-
<a href="/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%B8%80%EF%BC%89%E5%9F%BA%E7%A1%80%E6%A6%82%E5%BF%B5/" title="强化学习学习笔记(一)基础概念">
453+
<a href="/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%B8%80%EF%BC%89%E5%9F%BA%E7%A1%80%E6%A6%82%E5%BF%B5/" title="强化学习笔记(一)基础概念">
454454
<i class="iconfont icon-arrowleft"></i>
455-
<span class="hidden-mobile">强化学习学习笔记(一)基础概念</span>
455+
<span class="hidden-mobile">强化学习笔记(一)基础概念</span>
456456
<span class="visible-mobile">上一篇</span>
457457
</a>
458458

2026/01/05/在Windows上快速运行并调试LLMLight/index.html

Lines changed: 4 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -453,18 +453,18 @@ <h2 id="wandb未配置">5.3 wandb未配置</h2>
453453
<article class="post-prev col-6">
454454

455455

456-
<a href="/2026/01/19/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%B8%89%EF%BC%89%E8%B4%9D%E5%B0%94%E6%9B%BC%E6%9C%80%E4%BC%98%E6%96%B9%E7%A8%8B/" title="强化学习学习笔记(三)贝尔曼最优方程">
456+
<a href="/2026/01/19/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%B8%89%EF%BC%89%E8%B4%9D%E5%B0%94%E6%9B%BC%E6%9C%80%E4%BC%98%E6%96%B9%E7%A8%8B/" title="强化学习笔记(三)贝尔曼最优方程">
457457
<i class="iconfont icon-arrowleft"></i>
458-
<span class="hidden-mobile">强化学习学习笔记(三)贝尔曼最优方程</span>
458+
<span class="hidden-mobile">强化学习笔记(三)贝尔曼最优方程</span>
459459
<span class="visible-mobile">上一篇</span>
460460
</a>
461461

462462
</article>
463463
<article class="post-next col-6">
464464

465465

466-
<a href="/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%B8%80%EF%BC%89%E5%9F%BA%E7%A1%80%E6%A6%82%E5%BF%B5/" title="强化学习学习笔记(一)基础概念">
467-
<span class="hidden-mobile">强化学习学习笔记(一)基础概念</span>
466+
<a href="/2026/01/04/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0%EF%BC%88%E4%B8%80%EF%BC%89%E5%9F%BA%E7%A1%80%E6%A6%82%E5%BF%B5/" title="强化学习笔记(一)基础概念">
467+
<span class="hidden-mobile">强化学习笔记(一)基础概念</span>
468468
<span class="visible-mobile">下一篇</span>
469469
<i class="iconfont icon-arrowright"></i>
470470
</a>

0 commit comments

Comments
 (0)