ESC
输入关键词搜索文章
目录

强化学习学习指南

中枢页 · 从马尔可夫决策到深度强化学习
系统掌握 RL 核心算法的设计动机与数学基础
4核心模块
12+算法详解
8完整例题
6代码示例
Introduction · 学习指南
强化学习:从试错到最优策略的科学

强化学习(Reinforcement Learning)研究的是一个核心问题:智能体如何在与环境的反复交互中,学会做出最优决策。它不同于监督学习(需要标注数据)和无监督学习(寻找隐藏结构),RL 的学习信号来自环境返回的标量奖励。

这个中枢页是强化学习系统学习的导航入口。我将整个知识体系拆分为四个递进的模块,每个模块有独立的详细页面,包含完整的数学推导、例题和代码。你可以按顺序学习,也可以直接跳到感兴趣的章节。

🗺️ 知识地图 · 四个递进模块
模块 01 · 基础理论

一切 RL 问题的数学骨架。定义状态、动作、策略、价值函数,推导贝尔曼方程。理解这些,后续所有算法才有着力点。

核心问题:如何把"在环境中试错学习"这件事变成一个严谨的数学问题?
  • Agent-Environment 交互框架
  • MDP 五元组 $(S, A, P, R, \gamma)$
  • 策略 $\pi$ 与价值函数 $V^\pi, Q^\pi$
  • 贝尔曼方程的推导与直觉
  • 探索与利用:$\epsilon$-Greedy
  • 例题:贝尔曼方程手动计算
模块 02 · 有模型方法

当环境模型完全已知时,无需试错,直接通过数学推演求解最优策略。策略迭代和价值迭代是两种经典路径,收敛性由压缩映射定理保证。

核心问题:已知 $P(s'|s,a)$$R(s,a)$,如何不靠采样直接算出最优策略?
  • 策略评估(Policy Evaluation)
  • 策略改进(Policy Improvement)
  • 策略迭代的完整循环
  • 价值迭代:一步到位的 Bellman 最优算子
  • 收敛性:巴拿赫压缩映射定理
  • 例题:网格世界策略迭代全流程
  • 例题:价值迭代逐步收敛表格
模块 03 · 无模型方法

现实中环境模型几乎总是未知的。无模型方法直接从采样经验中学习,核心算法包括 MC、SARSA(On-Policy)和 Q-Learning(Off-Policy)。

核心问题:不知道 $P(s'|s,a)$,如何仅靠"做了再说"学会最优策略?
  • 蒙特卡洛预测:大数定律的朴素应用
  • 时序差分(TD):自举的力量
  • SARSA:跟着策略走
  • Q-Learning:向着最优看齐
  • 悬崖漫步(Cliff Walking)实验
  • 例题:Q-Learning 多步表格更新
  • 例题:SARSA vs Q-Learning 对比
模块 04 · 深度强化学习

当状态空间爆炸,表格方法失效。深度神经网络带来函数近似能力,催生了 DQN、策略梯度、PPO,以及大模型时代的 GRPO。

核心问题:围棋有 $10^{170}$ 个状态,自动驾驶是连续空间——如何让 RL 在高维世界里工作?
  • 维度灾难与函数近似
  • DQN:经验回放 + 目标网络
  • 策略梯度定理与 REINFORCE
  • PPO:裁剪的信任区域
  • GRPO:大模型对齐的新范式
  • On-Policy vs Off-Policy 对比
📊 算法全景对比
算法 类型 是否需要模型 策略类型 适用场景
策略迭代动态规划✅ 需要小规模离散 MDP
价值迭代动态规划✅ 需要小规模离散 MDP
MC 预测无模型❌ 不需要On-Policy回合制任务
SARSATD 控制❌ 不需要On-Policy安全性优先场景
Q-LearningTD 控制❌ 不需要Off-Policy追求最优策略
DQN深度 RL❌ 不需要Off-Policy高维状态(图像等)
REINFORCE策略梯度❌ 不需要On-Policy连续动作空间
PPO策略梯度❌ 不需要On-Policy通用(游戏、机器人)
GRPO策略优化❌ 不需要On-PolicyLLM 对齐
🧭 学习路径建议
路径 A · 快速入门
先跑起来再说

如果你的目标是尽快写出第一个 RL 程序:直接看无模型方法中的 Q-Learning 章节,理解 Q 表更新机制,用 CliffWalking 环境跑通第一个实验。

路径 B · 系统学习
从数学到工程

按模块 01 → 02 → 03 → 04 顺序学习。每个模块都有例题帮助你"动手算一遍",这比看十遍公式推导都有效。适合准备面试或写论文的读者。

路径 C · 算法研究
面向论文阅读

重点看深度强化学习中的 PPO 和 GRPO 章节。如果你在阅读 RLHF、DPO 相关论文,那里是数学推导最密集的部分。

路径 D · LLM 对齐
只关心大模型训练

直接跳到深度 RL中 GRPO 章节,然后回看策略梯度基础和 PPO 作为前置知识。RLHF 是这一条线的应用端。

📚 核心参考资料
资源说明
Sutton & Barto《RL: An Introduction》RL 领域的圣经,适合精读
David Silver RL Course (UCL)经典课程,10 讲覆盖核心
RethinFun 强化学习系列(B站)中文入门首选,讲解清晰
OpenAI Spinning Up代码驱动学习,适合实践派
Gymnasium 文档标准 RL 环境库,快速上手实验
🔧 持续更新计划
专题状态优先级
TD($\lambda$) 与资格迹计划中
Double Q-Learning 与最大化偏差计划中
Dueling DQN 架构计划中
Actor-Critic 与 A2C/A3C计划中
连续动作空间:DDPG / SAC计划中
多臂老虎机:UCB / Thompson Sampling计划中

参考来源