强化学习学习指南
中枢页 · 从马尔可夫决策到深度强化学习
系统掌握 RL 核心算法的设计动机与数学基础
4核心模块
12+算法详解
8完整例题
6代码示例
Introduction · 学习指南
强化学习:从试错到最优策略的科学
强化学习(Reinforcement Learning)研究的是一个核心问题:智能体如何在与环境的反复交互中,学会做出最优决策。它不同于监督学习(需要标注数据)和无监督学习(寻找隐藏结构),RL 的学习信号来自环境返回的标量奖励。
这个中枢页是强化学习系统学习的导航入口。我将整个知识体系拆分为四个递进的模块,每个模块有独立的详细页面,包含完整的数学推导、例题和代码。你可以按顺序学习,也可以直接跳到感兴趣的章节。
🗺️ 知识地图 · 四个递进模块
模块 01 · 基础理论
核心问题:如何把"在环境中试错学习"这件事变成一个严谨的数学问题?
- Agent-Environment 交互框架
- MDP 五元组 $(S, A, P, R, \gamma)$
- 策略 $\pi$ 与价值函数 $V^\pi, Q^\pi$
- 贝尔曼方程的推导与直觉
- 探索与利用:$\epsilon$-Greedy
- 例题:贝尔曼方程手动计算
模块 02 · 有模型方法
核心问题:已知 $P(s'|s,a)$ 和 $R(s,a)$,如何不靠采样直接算出最优策略?
- 策略评估(Policy Evaluation)
- 策略改进(Policy Improvement)
- 策略迭代的完整循环
- 价值迭代:一步到位的 Bellman 最优算子
- 收敛性:巴拿赫压缩映射定理
- 例题:网格世界策略迭代全流程
- 例题:价值迭代逐步收敛表格
模块 03 · 无模型方法
核心问题:不知道 $P(s'|s,a)$,如何仅靠"做了再说"学会最优策略?
- 蒙特卡洛预测:大数定律的朴素应用
- 时序差分(TD):自举的力量
- SARSA:跟着策略走
- Q-Learning:向着最优看齐
- 悬崖漫步(Cliff Walking)实验
- 例题:Q-Learning 多步表格更新
- 例题:SARSA vs Q-Learning 对比
模块 04 · 深度强化学习
核心问题:围棋有 $10^{170}$ 个状态,自动驾驶是连续空间——如何让 RL 在高维世界里工作?
- 维度灾难与函数近似
- DQN:经验回放 + 目标网络
- 策略梯度定理与 REINFORCE
- PPO:裁剪的信任区域
- GRPO:大模型对齐的新范式
- On-Policy vs Off-Policy 对比
📊 算法全景对比
| 算法 | 类型 | 是否需要模型 | 策略类型 | 适用场景 |
|---|---|---|---|---|
| 策略迭代 | 动态规划 | ✅ 需要 | — | 小规模离散 MDP |
| 价值迭代 | 动态规划 | ✅ 需要 | — | 小规模离散 MDP |
| MC 预测 | 无模型 | ❌ 不需要 | On-Policy | 回合制任务 |
| SARSA | TD 控制 | ❌ 不需要 | On-Policy | 安全性优先场景 |
| Q-Learning | TD 控制 | ❌ 不需要 | Off-Policy | 追求最优策略 |
| DQN | 深度 RL | ❌ 不需要 | Off-Policy | 高维状态(图像等) |
| REINFORCE | 策略梯度 | ❌ 不需要 | On-Policy | 连续动作空间 |
| PPO | 策略梯度 | ❌ 不需要 | On-Policy | 通用(游戏、机器人) |
| GRPO | 策略优化 | ❌ 不需要 | On-Policy | LLM 对齐 |
🧭 学习路径建议
路径 A · 快速入门
先跑起来再说
路径 B · 系统学习
从数学到工程
路径 C · 算法研究
面向论文阅读
路径 D · LLM 对齐
只关心大模型训练
📚 核心参考资料
| 资源 | 说明 |
|---|---|
| Sutton & Barto《RL: An Introduction》 | RL 领域的圣经,适合精读 |
| David Silver RL Course (UCL) | 经典课程,10 讲覆盖核心 |
| RethinFun 强化学习系列(B站) | 中文入门首选,讲解清晰 |
| OpenAI Spinning Up | 代码驱动学习,适合实践派 |
| Gymnasium 文档 | 标准 RL 环境库,快速上手实验 |
🔧 持续更新计划
| 专题 | 状态 | 优先级 |
|---|---|---|
| TD($\lambda$) 与资格迹 | 计划中 | 中 |
| Double Q-Learning 与最大化偏差 | 计划中 | 高 |
| Dueling DQN 架构 | 计划中 | 中 |
| Actor-Critic 与 A2C/A3C | 计划中 | 高 |
| 连续动作空间:DDPG / SAC | 计划中 | 中 |
| 多臂老虎机:UCB / Thompson Sampling | 计划中 | 低 |
参考来源
- 马尔科夫决策过程《RethinFun强化学习》1.2
- 零基础学习强化学习算法:PPO
- Gymnasium: A standard API for RL environments
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.