强化学习学习指南—

2026/05/20 00:00:00

AI强化学习·6 min read

强化学习 RL MDP Q-Learning DQN PPO 策略梯度学习指南

Introduction · 学习指南

强化学习：从试错到最优策略的科学

强化学习（Reinforcement Learning）研究的是一个核心问题：智能体如何在与环境的反复交互中，学会做出最优决策。它不同于监督学习（需要标注数据）和无监督学习（寻找隐藏结构），RL 的学习信号来自环境返回的标量奖励。

这个中枢页是强化学习系统学习的导航入口。我将整个知识体系拆分为四个递进的模块，每个模块有独立的详细页面，包含完整的数学推导、例题和代码。你可以按顺序学习，也可以直接跳到感兴趣的章节。

🗺️ 知识地图 · 四个递进模块

模块 01 · 基础理论

基础概念与马尔可夫决策过程

一切 RL 问题的数学骨架。定义状态、动作、策略、价值函数，推导贝尔曼方程。理解这些，后续所有算法才有着力点。

核心问题：如何把"在环境中试错学习"这件事变成一个严谨的数学问题？

Agent-Environment 交互框架
MDP 五元组 $(S, A, P, R, \gamma)$
策略 $\pi$ 与价值函数 $V^\pi, Q^\pi$
贝尔曼方程的推导与直觉
探索与利用： $\epsilon$ -Greedy
例题：贝尔曼方程手动计算

模块 02 · 有模型方法

动态规划：策略迭代与价值迭代

当环境模型完全已知时，无需试错，直接通过数学推演求解最优策略。策略迭代和价值迭代是两种经典路径，收敛性由压缩映射定理保证。

核心问题：已知

$P(s'|s,a)$

和

$R(s,a)$

，如何不靠采样直接算出最优策略？

策略评估（Policy Evaluation）
策略改进（Policy Improvement）
策略迭代的完整循环
价值迭代：一步到位的 Bellman 最优算子
收敛性：巴拿赫压缩映射定理
例题：网格世界策略迭代全流程
例题：价值迭代逐步收敛表格

模块 03 · 无模型方法

蒙特卡洛、时序差分与 Q-Learning

现实中环境模型几乎总是未知的。无模型方法直接从采样经验中学习，核心算法包括 MC、SARSA（On-Policy）和 Q-Learning（Off-Policy）。

核心问题：不知道

$P(s'|s,a)$

，如何仅靠"做了再说"学会最优策略？

蒙特卡洛预测：大数定律的朴素应用
时序差分（TD）：自举的力量
SARSA：跟着策略走
Q-Learning：向着最优看齐
悬崖漫步（Cliff Walking）实验
例题：Q-Learning 多步表格更新
例题：SARSA vs Q-Learning 对比

模块 04 · 深度强化学习

DQN、策略梯度、PPO 与 GRPO

当状态空间爆炸，表格方法失效。深度神经网络带来函数近似能力，催生了 DQN、策略梯度、PPO，以及大模型时代的 GRPO。

核心问题：围棋有

10^{170}

个状态，自动驾驶是连续空间——如何让 RL 在高维世界里工作？

维度灾难与函数近似
DQN：经验回放 + 目标网络
策略梯度定理与 REINFORCE
PPO：裁剪的信任区域
GRPO：大模型对齐的新范式
On-Policy vs Off-Policy 对比

📊 算法全景对比

算法	类型	是否需要模型	策略类型	适用场景
策略迭代	动态规划	✅ 需要	—	小规模离散 MDP
价值迭代	动态规划	✅ 需要	—	小规模离散 MDP
MC 预测	无模型	❌ 不需要	On-Policy	回合制任务
SARSA	TD 控制	❌ 不需要	On-Policy	安全性优先场景
Q-Learning	TD 控制	❌ 不需要	Off-Policy	追求最优策略
DQN	深度 RL	❌ 不需要	Off-Policy	高维状态（图像等）
REINFORCE	策略梯度	❌ 不需要	On-Policy	连续动作空间
PPO	策略梯度	❌ 不需要	On-Policy	通用（游戏、机器人）
GRPO	策略优化	❌ 不需要	On-Policy	LLM 对齐

🧭 学习路径建议

路径 A · 快速入门

先跑起来再说

如果你的目标是尽快写出第一个 RL 程序：直接看无模型方法中的 Q-Learning 章节，理解 Q 表更新机制，用 CliffWalking 环境跑通第一个实验。

路径 B · 系统学习

从数学到工程

按模块 01 → 02 → 03 → 04 顺序学习。每个模块都有例题帮助你"动手算一遍"，这比看十遍公式推导都有效。适合准备面试或写论文的读者。

路径 C · 算法研究

面向论文阅读

重点看深度强化学习中的 PPO 和 GRPO 章节。如果你在阅读 RLHF、DPO 相关论文，那里是数学推导最密集的部分。

路径 D · LLM 对齐

只关心大模型训练

直接跳到深度 RL中 GRPO 章节，然后回看策略梯度基础和 PPO 作为前置知识。RLHF 是这一条线的应用端。

📚 核心参考资料

资源	说明
Sutton & Barto《RL: An Introduction》	RL 领域的圣经，适合精读
David Silver RL Course (UCL)	经典课程，10 讲覆盖核心
RethinFun 强化学习系列（B站）	中文入门首选，讲解清晰
OpenAI Spinning Up	代码驱动学习，适合实践派
Gymnasium 文档	标准 RL 环境库，快速上手实验

🔧 持续更新计划

专题	状态	优先级
TD( $\lambda$ ) 与资格迹	计划中	中
Double Q-Learning 与最大化偏差	计划中	高
Dueling DQN 架构	计划中	中
Actor-Critic 与 A2C/A3C	计划中	高
连续动作空间：DDPG / SAC	计划中	中
多臂老虎机：UCB / Thompson Sampling	计划中	低

参考来源

马尔科夫决策过程《RethinFun强化学习》1.2
零基础学习强化学习算法：PPO
Gymnasium: A standard API for RL environments
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.