强化学习全景 2026：从算法到系统的范式转移

2026/05/17 00:00:00·2026/05/19 10:23:00

AI强化学习·31 min read

强化学习 Survey LLM World Model Agent RL Theory COAML

阅读指南

本文如何组织

面向有 ML 基础但对 RL 前沿不熟悉的读者

本文不是论文列表的堆砌，而是一次教学式的领域导览。每个领域都遵循相同的认知路径：

为什么重要——这个领域解决什么痛点？
核心直觉——用一个类比或直觉把握本质
技术机制——具体如何实现？关键方法对比
与其他领域的联系——它如何嵌入更大的 RL 图景？

你可以按顺序阅读（推荐），也可以直接跳到你感兴趣的领域——每个领域都是自包含的。

引言：RL 为什么突然变得无处不在？

如果你 2023 年关注 AI，RL（强化学习）可能还是一个"小众方向"——AlphaGo 之后似乎就没什么大新闻了。但到 2026 年，RL 已经悄然成为 LLM 后训练、机器人学习、自主 Agent 的核心基础设施。

这个转变的关键在于：数据从哪里来？

传统机器学习中，数据是"给定"的——人类标注的图片、收集的文本、测量的传感器读数。但 RL 的数据必须由模型自己通过与环境交互来产生。在 LLM 后训练中，这个"环境"就是模型自己的输出——模型生成一段文本，用 reward model 打分，再用 RL 优化。这意味着：数据生成方式本身就是算法的一部分。

这个洞察催生了一个根本性的范式转移——从"选择哪个 RL 算法"到"设计什么样的数据生成管线"。四大核心 Survey 分别从不同角度捕捉了这个转移：

四大 Survey：一个问题的四个侧面

GFCR (2605.02913, 47pp) — LLM 后训练中，rollout 数据如何生成、筛选、控制、复用？
World Model (2605.00080, 43pp) — 机器人如何在"想象"中练习，降低真实交互成本？
Agentic Reasoning (2601.12538, 135pp) — LLM 如何从"回答问题"进化为"自主行动"？
COAML (2601.10583, 35pp) — 机器学习如何直接优化"决策质量"而非"预测精度"？

这四个问题看似独立，实则共享同一个底层主题：数据生成与利用的系统设计。GFCR 设计 LLM 的 rollout 管线，World Model 构建机器人的"想象引擎"，Agentic Reasoning 扩展 LLM 的行动空间，COAML 重新定义学习目标——它们都在回答：如何让 AI 系统更聪明地产生和使用数据？

一个核心趋势：RL 正在从「算法优化」走向「系统设计」。不再是"PPO vs DPO vs GRPO 哪个更好"，而是"整个数据生成-筛选-训练管线如何设计"。这个转变让 RL 从纯学术问题变成了工程实践的核心。

一、RL 基础：从零开始理解强化学习

如果你还不熟悉 RL

这 5 分钟会让你建立直觉

什么是强化学习？

强化学习（Reinforcement Learning, RL）是一种机器学习范式，核心思想是：让智能体（Agent）通过与环境（Environment）的反复交互，学会做出最优决策。

用最简单的类比来说：RL 就像小孩学走路。

小孩 = Agent（智能体，做决策的主体）
房间 = Environment（环境，小孩所处的世界）
当前姿势 = State（状态，当前的情况）
迈出一步 = Action（动作，做出的选择）
站稳了 / 摔倒了 = Reward（奖励，环境的反馈）

小孩不会读说明书学走路。他通过尝试（迈出一步）、观察结果（站稳还是摔倒）、调整策略（下次尝试不同的姿势）来逐步学会。RL 的本质就是这个过程——试错学习。

RL 与监督学习的区别

你可能更熟悉监督学习（Supervised Learning）——比如图像分类：给模型一堆标注好的图片（"这是猫"、"这是狗"），模型学会从图片到标签的映射。

RL 与监督学习有两个根本区别：

维度	监督学习	强化学习
数据来源	人类标注的（给定）	Agent 自己产生的（需交互）
反馈类型	即时、明确的标签	延迟、稀疏的奖励信号
目标	最小化预测误差	最大化长期累积奖励
典型任务	图像分类、翻译、语音识别	玩游戏、机器人控制、推荐系统

这个区别至关重要：在 RL 中，数据不是给定的，而是必须由 Agent 自己产生。这意味着"如何产生数据"本身就是算法设计的一部分——这也是 GFCR 等框架的核心关注点。

核心挑战：探索 vs 利用

RL 面临一个永恒的权衡：

利用（Exploitation）：做当前已知最好的选择（走已经会走的路）
探索（Exploration）：尝试新的选择，可能发现更好的策略（走没走过的路）

如果你总是利用，可能错过更好的策略；如果你总是探索，浪费大量时间在无效的尝试上。找到探索和利用的平衡，是 RL 算法设计的核心挑战之一。

为什么 RL 在 2026 年突然变得重要？

RL 并不是新技术——它已经有几十年的历史。但 2023-2026 年发生了几个关键变化，让 RL 从"小众方向"变成了"核心基础设施"：

LLM 后训练：GPT-4、Claude 等模型的训练不仅仅是"预测下一个词"，还需要用 RL 来对齐人类偏好（RLHF）。数据由模型自己生成，RL 优化这些数据的质量。
机器人学习：真实机器人数据极其昂贵，RL 让机器人在模拟中学习，降低真实交互成本。
自主 Agent：LLM 需要与工具、环境持续交互，RL 提供了学习和优化的框架。

简言之：当数据必须由模型自己产生时，RL 成为不可避免的选择。

阅读指南：接下来的章节中，每当你看到"Agent"，想想"做决策的小孩"；看到"Environment"，想想"小孩所处的房间"；看到"Reward"，想想"站稳了还是摔倒了"。这个直觉会帮助你理解所有后续内容。

二、领域地图：八个前沿方向

在进入具体领域前，先建立一个整体地图。以下八个方向涵盖了当前 RL 研究的主要前沿：

领域	核心问题	关键方法	代表 Survey
LLM + RL (GFCR)	LLM 后训练中的数据生成管线	GRPO、RLHF、Self-Distillation	GFCR
World Models	环境动态的预测表示	Dreamer、VLA、Video Generation	World Model
Agentic Reasoning	LLM 作为自主 Agent	Planning、Tool Use、Multi-Agent	Agentic
COAML	决策质量直接优化	End-to-End、ECM、Smart-PTO	COAML
RL Theory	收敛性、样本复杂度	Natural PG、Actor-Critic	本周论文
Safe RL	安全约束与可达性	Safety Critics、Barrier Methods	本周论文
Offline RL	离线数据学习	CQL、IQL、Model-Based	经典方法
Multi-Agent RL	多智能体协作/竞争	QMIX、MAPPO、CTDE	本周论文

注意这些领域并非孤立。GFCR 的 rollout 框架可以借助 World Model 降低交互成本；Agentic Reasoning 为 GFCR 提供了"服务目标"（自主 Agent 需要什么能力）；COAML 为 GFCR 的 Filter 设计提供了替代优化目标；Safe RL 的约束可以嵌入 GFCR 的 Filter 模块。后文会反复回到这些交叉点。

二、GFCR：LLM 后训练的 Rollout 管线

核心问题

当数据必须由模型自己生成时，如何设计"数据工厂"？

为什么这很重要

传统 RL（如训练 Atari 游戏 AI）中，数据来自游戏模拟器——环境是固定的、确定的、免费的。但 LLM 后训练完全不同：数据由模型自己生成，每一次生成都需要计算资源，而生成质量直接决定训练效果。

更棘手的是，rollout（模型生成的候选响应）设计长期被当作"实现细节"——每个团队有自己的 trick，但缺乏系统性的框架。这导致复现困难、比较不公平、改进方向不明确。

GFCR (Generate-Filter-Control-Replay) 的核心贡献就是：把 rollout 设计提升为一等公民——给它一个系统性的框架、统一的符号体系、明确的模块化接口。

核心直觉：Rollout 管线就像一个工厂流水线

想象一个工厂生产零件：

Generate（生成） = 生产线制造出候选零件（多种设计方案）
Filter（筛选） = 质检部门检验零件质量（结构、功能、美观）
Control（控制） = 生产调度决定资源分配（哪些多生产、哪些早停）
Replay（复用） = 库存系统存储优质零件供未来复用

这个类比的关键在于：每个模块都是可独立改进的——你可以优化生产线（Generate）、升级质检标准（Filter）、改进调度算法（Control）、优化库存策略（Replay），而不需要重建整个工厂。

图 1：GFCR 生命周期全景 — Generate-Filter-Control-Replay 四大模块的交互关系（GFCR Survey, Fig.1）

技术机制：四阶段详解

模块	功能	核心设计空间
G · Generate	候选轨迹生成	拓扑结构（链式/树状/段式）、引导信息（rubrics/plans）、采样策略（temperature/diversity）
F · Filter	中间信号构建	六类信号：结构有效性、正确性验证、过程质量、比较评估、学习价值、训练信号
C · Control	计算分配与决策	Prompt 选择、预算调度、早停、分支剪枝、On/Off-Policy 控制
R · Replay	跨 rollout 复用	响应重采样、片段重组合、自演化课程

Generate：如何生成好的候选？

Generate 模块的设计空间可以用三个轴来理解：

拓扑 (Topology)：rollout 的结构形态——线性链式（标准 CoT）、树状（ReAct/MCTS，支持探索多个分支）、段式（Segment Rollout，将长任务分解为子段）。类比：就像写文章，你可以一口气写完（链式）、先列大纲再展开（树状）、或分段落写（段式）。
引导 (Guidance)：生成时注入的附加信息——rubrics（评分标准）、plans（计划）、critiques（批评意见）、tool traces（工具执行记录）。类比：就像学生考试，有的闭卷（无引导）、有的开卷（有参考）、有的可以给提示（有 rubrics）。
采样 (Sampling)：探索策略——temperature、top-p、diversity beam。类比：temperature 高就像头脑风暴（想法多样但质量参差），temperature 低就像审慎思考（答案保守但可靠）。

图 2：Generate 模块的三大设计轴 — 拓扑、引导、采样策略的组合空间（GFCR Survey）

Filter：如何从噪声中提取信号？

Filter 是 GFCR 中最关键的模块——它决定了"什么样的生成结果值得学习"。GFCR 区分了六类 Filter 机制，从"硬"到"软"、从"简单"到"复杂"：

Filter 类型	信号性质	典型方法	适用场景
结构有效性	格式是否正确？	JSON 格式检验、代码语法检查	代码生成、结构化输出
正确性验证	答案是否正确？	单元测试、符号验证、Verifier	数学题、编程题
过程质量	每一步是否合理？	PRM (Process Reward Model)	复杂多步推理
比较评估	哪个更好？	LM-as-a-Judge、Bradley-Terry	开放式创作、对话
学习价值	能带来什么新信息？	不确定性、新颖性	探索性任务
训练信号	如何转化为梯度？	Advantage 估计、GAE	通用 RL 训练

一个自然的疑问是：为什么需要这么多种 Filter？ 答案是：不同任务需要不同的"质检标准"。数学题需要精确的正确性验证（硬门槛），创意写作需要相对比较（软排序），复杂推理需要过程监督（细粒度）——没有一种 Filter 能通吃所有任务。

图 3：Filter 模块的六类信号构建机制 — 从结构有效性到学习价值信号（GFCR Survey）

Control 与 Replay：资源的智能调度

Control 回答"有限的计算预算如何分配"——哪些 prompt 值得多 roll 几次？什么时候该早停？Replay 回答"历史数据如何复用"——好的 rollout 是否可以跨任务复用？

这两个模块的核心洞察是：数据质量比数据数量更重要。与其均匀地生成大量低质量 rollout，不如集中资源生成少量高质量 rollout，并智能复用。

GFCR 的深层意义：GFCR 不只是一个技术框架，而是一种设计哲学——把 rollout 视为可工程化的系统组件，每个模块都可以独立优化、组合、替换。这与传统"一个算法打天下"的思维截然不同。

三、世界模型：机器人的"想象力引擎"

核心问题

如何让机器人在"想象"中练习，降低真实交互成本？

为什么这很重要

训练机器人最大的瓶颈不是算法，而是数据。真实机器人交互极其昂贵——需要物理硬件、人工监督、安全考虑。一个机器人手臂练习抓取，可能需要数万次尝试才能学会，而每次尝试都可能导致损坏。

世界模型的核心思想是：让机器人在"脑海"中模拟环境——给定当前状态和动作，预测下一步会发生什么。如果预测足够准确，机器人就可以在这个"模拟器"中无限次练习，而无需触碰真实世界。

核心直觉：世界模型就像人类的"心理模拟"

当你开车时，看到前车刹车灯亮起，你会在脑中"模拟"接下来的场景："如果我继续以当前速度行驶，3 秒后会追尾；如果我变道，旁边车道是空的。"这个心理模拟让你可以在不实际执行动作的情况下评估不同选择。

机器人的世界模型就是做同样的事——给定"当前摄像头画面 + 要执行的动作"，预测"下一帧画面 + 奖励信号"。

图 4：世界模型在机器人学习中的角色 — 从预测到规划，从模拟到评估（World Model Survey, Fig.1）

技术机制：策略如何与世界模型耦合？

世界模型不是孤立存在的——它需要与策略（决定做什么的模型）交互。两者如何"连接"决定了整个系统的架构：

耦合风格	核心思想	代表工作	优缺点
Decoupled	先训练视频生成模型，再训练独立策略	UniPi, VidMan, Vidar	简单但信息传递有损失
Single-backbone	视觉-动作统一模型	VLA 系列	端到端但训练难度大
Latent Dynamics	在压缩的潜空间中预测动态	Dreamer, TDM	高效但可能丢失细节
Unified VLA	端到端视觉-语言-动作	基础模型驱动	通用性强但计算成本高

选择哪种耦合方式，本质上是在模块化 vs 端到端之间做权衡。Decoupled 更容易调试和复用，Unified VLA 可能有更高的性能上限。

图 5：世界模型与策略的耦合分类 — 从 Decoupled 到 Unified VLA（World Model Survey）

视频世界模型的能力层级

世界模型的发展正经历一个清晰的"能力爬坡"：

Imagination-based：给定初始帧，"想象"接下来会发生什么（无控制）
Controllable：可以指定动作，看"如果我这样做，会发生什么"
Structured：引入物理先验（重力、碰撞），预测更符合物理规律
Foundation-scale：基础模型规模的世界模型，通用跨任务

目前的水平大约在第 2-3 层之间——我们可以控制视频生成，但物理真实性（特别是接触、摩擦等细节）仍是挑战。

图 6：机器人视频世界模型的能力层级演进（World Model Survey）

世界模型与 GFCR 的交汇：GFCR 的 Generate 模块（候选 rollout 生成）可以借助世界模型实现——在世界模型中低成本生成 rollout 候选项，筛选后再在真实环境中执行。这是一种"世界模型增强的 rollout"，将两个领域无缝连接。

四、Agentic Reasoning：从"回答问题"到"自主行动"

核心问题

LLM 擅长回答已知问题，但如何让它在未知环境中自主行动？

为什么这很重要

ChatGPT 可以写出优美的文章，但如果你让它"帮我订一张去纽约的机票"，它可能会生成一段看似合理但完全虚构的预订流程——因为它没有真正"做"的能力，只是在"说"。

Agentic Reasoning 的核心目标就是：让 LLM 从"说话者"变成"行动者"——能够规划、使用工具、与环境持续交互、从反馈中学习。

核心直觉：给 LLM 装上"手脚"和"感官"

想象一个被锁在房间里的人——他头脑很聪明，但无法感知外界（没有感官），也无法影响外界（没有手脚）。LLM 就像这个人：拥有大量知识，但缺乏与真实世界交互的能力。

Agentic Reasoning 就是给 LLM 装上：

感官 = 工具调用（搜索、读取文件、查询数据库）
手脚 = 行动能力（执行代码、发送请求、控制设备）
记忆 = 跨会话的信息保持
反思 = 从错误中学习和调整策略

图 7：Agentic Reasoning 的核心架构 — 规划、行动、学习的三层循环（Agentic Reasoning Survey）

技术机制：三层能力维度

层次	能力	核心方法
Foundational	单 Agent 规划、工具使用	CoT（思维链）、ReAct（推理+行动交替）、Plan-then-act
Self-evolving	从反馈中学习、记忆、适应	RL 后训练、记忆机制、自我反思
Collective	多 Agent 协调、知识共享	多 Agent 通信、协作策略

In-context vs Post-training：两种获取能力的方式

Agentic 能力可以通过两种根本不同的方式获得，各有优劣：

In-context（测试时）：通过精心设计的 prompt 让模型在生成过程中"思考"——如 CoT（"让我们一步一步想"）、ReAct（"思考→行动→观察"循环）。优势：无需重训练，灵活。劣势：受限于上下文窗口，无法持久学习。
Post-training（训练时）：通过 RL 或 SFT 在训练时优化模型行为——如 GRPO、PPO、DPO。优势：能力内化到模型参数中，更持久。劣势：需要大量训练数据和计算。

当前的趋势是两者结合——用 In-context 方法快速原型验证，用 Post-training 将验证有效的策略固化到模型中。

图 8：Self-evolving Agentic Reasoning — 反射反馈、参数适应、验证器反馈的三种自演化机制（Agentic Survey）

工具使用的三条路线

Agent 如何使用外部工具？三种不同思路：

In-context 集成：在 prompt 中说明工具功能和调用格式，让模型自行决定何时调用。类比：给一个人说明书，让他自己决定什么时候用什么工具。
Post-training 集成：通过 RL 训练模型学会更高效地选择和使用工具。类比：通过反复练习，让人形成"肌肉记忆"——看到某种情况自动知道用什么工具。
编排层：在模型之上加一个协调层，由编排器决定调用哪个工具、如何处理结果。类比：像项目经理一样，协调多个专家（工具）完成复杂任务。

Agentic 与 GFCR 的深层联系：Agentic Reasoning 定义了"自主 Agent"的目标形态，而 GFCR 提供了实现这个目标的"数据工厂"。Agent 的多步交互 → GFCR Generate 的树状拓扑；Agent 的工具验证 → GFCR Filter 的 verifier 信号；Agent 的自我演化 → GFCR Replay 的自演化课程。两者是目标与手段的关系。

五、COAML：当"预测准确"不等于"决策正确"

核心问题

机器学习优化预测误差，但真实目标是决策质量——如何弥合这个鸿沟？

为什么这很重要

传统机器学习的标准流程是：预测→优化。先训练一个预测模型（如预测需求量、交通流量），然后用预测结果作为输入，运行优化算法（如库存优化、路线规划）得到最终决策。

这个流程有一个根本缺陷：预测误差和决策质量不是一回事。想象一个导航软件：它可能准确预测了每条路的拥堵程度（预测误差小），但选了一条虽然当前通畅却会很快堵死的路线（决策质量差）。反之，一个粗略的预测（"这条路大概会堵"）可能足以做出好的决策（"避开这条路"）。

COAML（Combinatorial Optimization Augmented Machine Learning）的核心洞察是：应该直接优化决策质量，而非中间代理指标（预测误差）。

核心直觉：导航软件的启示

想象两个导航软件：

传统 ML（PTO）：花大量精力精确预测每条路的速度（误差 ±2 km/h），然后基于这些预测选路。如果预测在关键路口出错，整个路线可能完全错误。
COAML：不关心"每条路精确速度是多少"，只关心"走哪条路最快"。它把路线规划求解器嵌入学习过程，直接优化"实际到达时间"。

关键区别在于：PTO 的"预测"和"优化"是两个独立步骤，误差会在传递中放大；COAML 的"预测"和"优化"是端到端联合训练的，梯度直接从最终决策质量回传。

图 9：COAML 统一框架 — 将组合优化 oracle 嵌入学习管线，实现决策质量端到端优化（COAML Survey, Fig.1）

技术机制：从 PTO 到 COAML

范式	核心思想	学习方式	核心问题
PTO	先预测，再优化	两阶段独立	预测误差 ≠ 决策质量
Smart-PTO	端到端，但限于线性目标	决策梯度	非线性目标无法处理
COAML	将优化求解器作为可微分层	端到端梯度回传	需要可微分 oracle

COAML 的核心技术挑战是：如何让组合优化求解器可微分？ 传统求解器（如线性规划、整数规划）是离散的、不可微的。COAML 的解决方案包括：

隐函数微分：利用 KKT 条件计算优化问题的隐式梯度
凸松弛：将离散问题松弛为连续问题，求导后再投影回离散解
扰动法：在输入上加微小扰动，观察输出变化来估计梯度

三种学习范式

范式	说明	代表方法
ECM	直接优化经验决策成本	端到端训练
SL	模仿专家决策	行为克隆
RL	通过交互学习最优决策	策略梯度

图 10：决策优化范式对比 — 从 PTO 到 Smart-PTO 到 COAML 的演进（COAML Survey）

COAML 与 GFCR 的交汇：GFCR 的 Filter 模块需要某种"评估信号"来判断 rollout 质量。COAML 提供了一种替代思路：与其用人工设计的 verifier/judge，不如直接优化"这个 rollout 对最终模型性能的贡献"——这正是 COAML 的"决策损失"思想。Verifier 是代理指标，决策质量才是真实目标。

六、RL Theory：为什么需要理论？

核心问题

RL 算法经常"看起来有效但不知道为什么"——理论能给我们什么？

为什么理论重要

RL 领域有一个尴尬的现象：很多算法在实践中表现很好，但我们无法解释为什么。PPO 在大量任务上有效，但收敛性保证很弱；Q-Learning 简单直观，但在非平稳环境中的行为难以预测。

理论的价值在于：

可预测性：知道算法在什么条件下收敛、多快收敛
可比较性：不同算法的样本复杂度下界是什么
可设计性：基于理论洞察设计新算法

本周 Theory 突破概览

本周 arXiv 上 RL Theory 方向非常活跃（7/15 篇论文），表明这是一个热门前沿：

方向	核心贡献	意义
二阶 Actor-Critic	利用策略 Hessian 的二阶信息加速收敛	一阶方法收敛慢，二阶可能突破
ε⁻² Sample Complexity	证明 Actor-Critic 可达 ε⁻² 样本复杂度	接近理论下界
Natural PG Bellman-Operator	建立自然策略梯度与 Bellman 算子的联系	统一两个经典框架
Non-Markovian PG	历史压缩到内部状态的策略梯度	突破 MDP 假设，通向更通用 RL
Q-learning 切换系统	Q-learning 在切换系统中的稳定性理论	理解 Q-learning 的非平稳行为

Non-Markovian PG 的特别意义：传统 RL 假设环境是 MDP（当前状态包含所有历史信息），但真实世界很少满足这个假设。Non-Markovian PG 允许将整个历史压缩到内部状态来做策略梯度——这与 Agentic Reasoning 中的"Memory & Adaptation"（Agent 需要记住跨会话的信息）有潜在联系。

七、Safe RL：在追求最优时保证安全

核心问题

如何让 RL Agent 在追求性能的同时不突破安全边界？

为什么这很重要

标准 RL 的目标是最大化累积奖励。但现实中，很多任务有硬约束——自动驾驶不能撞人，机器人不能损坏设备， trading bot 不能把本金亏完。Safe RL 研究如何在优化性能的同时满足这些约束。

核心直觉：安全约束就像护栏

想象在悬崖边开车：你想尽快到达目的地（优化目标），但不能掉下悬崖（安全约束）。Safe RL 就是在道路上安装"护栏"——Agent 可以在护栏内自由探索，但一旦接近边界就会受到警告或惩罚。

主要方法

方法	核心思想	适用场景
Safety Critics	训练一个额外的 Critic 评估安全性	需要精细安全评估的场景
Barrier Certificates	构造数学障碍函数，保证不进入危险区域	有明确数学模型的系统
Constrained MDP	将约束直接融入 MDP 框架	通用框架
可达性分析	验证系统是否能在危险发生前到达安全状态	机器人导航

Safe RL 与 GFCR 的结合：GFCR 的 Filter 模块中的"结构有效性检验"可以作为安全门控——在 rollout 进入危险区域前拦截。将 Safe RL 的约束嵌入 GFCR Filter，可以构建双层安全体系：Filter 做快速预筛选，Safety Critic 做精细评估。

八、Offline RL 与 Multi-Agent RL

两个互补方向

从静态数据学习 & 多智能体协作

Offline RL：没有环境交互时如何学习？

标准 RL 需要持续与环境交互来获取新数据。但很多场景下这是不可能的——医疗决策不能随意尝试，金融交易不能拿真金白银试错。Offline RL 研究如何仅从已有的离线数据中学习。

核心挑战是分布偏移：离线数据只覆盖了状态-动作空间的一小部分，而学习到的策略可能会探索数据未覆盖的区域，导致价值估计严重偏差。

方法	核心思想	关键洞察
CQL	保守 Q-learning，惩罚对 OOD 动作的高估	"不确定时保持悲观"
IQL	隐式 Q-learning，避免显式策略提取	直接学习价值函数而非策略
Model-Based Offline	学习世界模型，在模型中规划	用模型"填补"数据空白

Offline RL 与 World Model 有天然联系：Model-Based Offline RL 就是学习一个世界模型然后在其中规划——这正是 World Model Survey 讨论的核心方向。

Multi-Agent RL：当多个 Agent 共存时

当多个 Agent 在同一个环境中学习时，问题变得更复杂——每个 Agent 面临的环境是非平稳的（因为其他 Agent 的策略在变化）。

核心挑战：

非平稳性：其他 Agent 策略变化导致环境动态变化
信用分配：团队奖励如何归因到个体 Agent
可扩展性：Agent 数量增加时的计算和通信开销

架构	说明	代表方法
CTDE	中心化训练（知道全局信息），分布式执行（只看局部）	QMIX, MAPPO
Fully Decentralized	每个 Agent 独立学习	Independent PPO
Communication-based	Agent 之间显式通信	CommNet, TarMAC

九、统一图景：四大 Survey 如何相互连接

读到此处，你已经了解了八个独立领域。但 RL 的真正力量在于这些领域的交叉融合。让我们用一张图来理解四大 Survey 的内在联系：

Survey	核心角色	为其他 Survey 提供什么？	从其他 Survey 获得什么？
GFCR	数据工厂	为 Agentic 提供 rollout 框架；为 COAML 提供信号来源	从 World Model 获得低成本 rollout 生成器；从 Safe RL 获得安全约束 Filter
World Model	想象引擎	为 GFCR 提供低成本 rollout 模拟；为 Offline RL 提供 Model-Based 方法	从 GFCR 获得 rollout 设计原则；从 Agentic 获得多步交互需求
Agentic	目标定义	为 GFCR 定义"服务目标"；为 World Model 提供应用场景	从 GFCR 获得数据生成能力；从 COAML 获得决策优化目标
COAML	目标修正	为 GFCR Filter 提供替代优化目标；为 Agentic 提供决策质量保障	从 GFCR 获得实际信号；从 RL Theory 获得收敛保证

统一趋势

RL 正在经历从「算法优化」到「系统设计」的范式转移：

从单一目标优化 → 多组件协同的端到端管道（GFCR）
从孤立方法 → 模块化、可组合的框架
从纯环境驱动 → LLM 先验 + 世界模型 + RL 的融合
从离线优化 → 在线 rollout + 离线数据的混合范式

最核心的洞察：从"选择哪个 RL 算法"到"设计什么样的数据生成管线"，这个转变让 RL 从纯学术问题变成了工程实践的核心。数据质量正在成为比算法选择更关键的差异化因素。

十、开放问题：我们离真正的自主智能还有多远？

尽管 RL 在 2026 年已经取得了巨大进展，以下问题仍然悬而未决：

Verifier 的校准困境：GFCR Filter 的质量直接依赖于 verifier/judge 的校准精度。但如何系统性地评估 verifier 本身的质量？如果 verifier 错了，整个训练信号就错了。
计算预算的最优分配：GFCR Control 如何在多样化任务中实现计算预算的最优分配？目前的方法大多是启发式的，缺乏理论保证。
Self-evolution 的安全性：GFCR Replay 的自演化课程可能导致 reward hacking（找到 verifier 的漏洞而非真正解决问题）。如何设计防 hack 的 verifier？
世界模型的物理真实性：视频生成模型作为世界模型时，物理真实性（接触、摩擦、刚体力学）仍是挑战。一个在世界模型中表现完美的策略，可能在真实世界中失败。
COAML 的规模化：组合优化求解器的可微分化需要大量工程工作，如何自动化这个过程？如何让 COAML 适用于更大规模的问题？
Agentic 的长程可靠性：Agent 在长时间跨度的多步交互中如何保持可靠性？当前系统在长程任务中容易"偏离轨道"。
跨领域的统一理论：GFCR、World Model、Agentic、COAML 各自有各自的框架，能否建立一个统一的数学框架来描述"数据生成-利用"的完整管线？

数据文件索引

GFCR Survey：~/Org/roam/raw/llm-rl-rollout-survey/sources/2605.02913.{pdf,txt,json}
World Model Survey：~/Org/roam/raw/world-model-robot-survey/sources/2605.00080.{pdf,txt,json}
Agentic Survey：~/Org/roam/raw/agentic-reasoning-survey/sources/2601.12538.{pdf,txt,json}
COAML Survey：~/Org/roam/raw/coaml-survey/sources/2601.10583.{pdf,txt,json}
插图集：~/gongshangzheng.github.io/media/images/rl-landscape/（48 张 PNG）