ESC
输入关键词搜索文章
目录

强化学习全景 2026:从算法到系统的范式转移

arXiv RL 教学式调研
八大领域 · 从直觉到机制 · 统一趋势
8核心领域
4Survey 全量解析
48提取插图
260总页数 Survey
阅读指南
本文如何组织
面向有 ML 基础但对 RL 前沿不熟悉的读者

本文不是论文列表的堆砌,而是一次教学式的领域导览。每个领域都遵循相同的认知路径:

  1. 为什么重要——这个领域解决什么痛点?
  2. 核心直觉——用一个类比或直觉把握本质
  3. 技术机制——具体如何实现?关键方法对比
  4. 与其他领域的联系——它如何嵌入更大的 RL 图景?

你可以按顺序阅读(推荐),也可以直接跳到你感兴趣的领域——每个领域都是自包含的。

引言:RL 为什么突然变得无处不在?

如果你 2023 年关注 AI,RL(强化学习)可能还是一个"小众方向"——AlphaGo 之后似乎就没什么大新闻了。但到 2026 年,RL 已经悄然成为 LLM 后训练、机器人学习、自主 Agent 的核心基础设施

这个转变的关键在于:数据从哪里来?

传统机器学习中,数据是"给定"的——人类标注的图片、收集的文本、测量的传感器读数。但 RL 的数据必须由模型自己通过与环境交互来产生。在 LLM 后训练中,这个"环境"就是模型自己的输出——模型生成一段文本,用 reward model 打分,再用 RL 优化。这意味着:数据生成方式本身就是算法的一部分

这个洞察催生了一个根本性的范式转移——从"选择哪个 RL 算法"到"设计什么样的数据生成管线"。四大核心 Survey 分别从不同角度捕捉了这个转移:

四大 Survey:一个问题的四个侧面

  • GFCR (2605.02913, 47pp) — LLM 后训练中,rollout 数据如何生成、筛选、控制、复用?
  • World Model (2605.00080, 43pp) — 机器人如何在"想象"中练习,降低真实交互成本?
  • Agentic Reasoning (2601.12538, 135pp) — LLM 如何从"回答问题"进化为"自主行动"?
  • COAML (2601.10583, 35pp) — 机器学习如何直接优化"决策质量"而非"预测精度"?

这四个问题看似独立,实则共享同一个底层主题:数据生成与利用的系统设计。GFCR 设计 LLM 的 rollout 管线,World Model 构建机器人的"想象引擎",Agentic Reasoning 扩展 LLM 的行动空间,COAML 重新定义学习目标——它们都在回答:如何让 AI 系统更聪明地产生和使用数据?

一个核心趋势:RL 正在从「算法优化」走向「系统设计」。不再是"PPO vs DPO vs GRPO 哪个更好",而是"整个数据生成-筛选-训练管线如何设计"。这个转变让 RL 从纯学术问题变成了工程实践的核心。
一、RL 基础:从零开始理解强化学习
如果你还不熟悉 RL
这 5 分钟会让你建立直觉

什么是强化学习?

强化学习(Reinforcement Learning, RL)是一种机器学习范式,核心思想是:让智能体(Agent)通过与环境(Environment)的反复交互,学会做出最优决策

用最简单的类比来说:RL 就像小孩学走路

  • 小孩 = Agent(智能体,做决策的主体)
  • 房间 = Environment(环境,小孩所处的世界)
  • 当前姿势 = State(状态,当前的情况)
  • 迈出一步 = Action(动作,做出的选择)
  • 站稳了 / 摔倒了 = Reward(奖励,环境的反馈)

小孩不会读说明书学走路。他通过尝试(迈出一步)、观察结果(站稳还是摔倒)、调整策略(下次尝试不同的姿势)来逐步学会。RL 的本质就是这个过程——试错学习

RL 与监督学习的区别

你可能更熟悉监督学习(Supervised Learning)——比如图像分类:给模型一堆标注好的图片("这是猫"、"这是狗"),模型学会从图片到标签的映射。

RL 与监督学习有两个根本区别:

维度监督学习强化学习
数据来源人类标注的(给定)Agent 自己产生的(需交互)
反馈类型即时、明确的标签延迟、稀疏的奖励信号
目标最小化预测误差最大化长期累积奖励
典型任务图像分类、翻译、语音识别玩游戏、机器人控制、推荐系统

这个区别至关重要:在 RL 中,数据不是给定的,而是必须由 Agent 自己产生。这意味着"如何产生数据"本身就是算法设计的一部分——这也是 GFCR 等框架的核心关注点。

核心挑战:探索 vs 利用

RL 面临一个永恒的权衡:

  • 利用(Exploitation):做当前已知最好的选择(走已经会走的路)
  • 探索(Exploration):尝试新的选择,可能发现更好的策略(走没走过的路)

如果你总是利用,可能错过更好的策略;如果你总是探索,浪费大量时间在无效的尝试上。找到探索和利用的平衡,是 RL 算法设计的核心挑战之一。

为什么 RL 在 2026 年突然变得重要?

RL 并不是新技术——它已经有几十年的历史。但 2023-2026 年发生了几个关键变化,让 RL 从"小众方向"变成了"核心基础设施":

  1. LLM 后训练:GPT-4、Claude 等模型的训练不仅仅是"预测下一个词",还需要用 RL 来对齐人类偏好(RLHF)。数据由模型自己生成,RL 优化这些数据的质量。
  2. 机器人学习:真实机器人数据极其昂贵,RL 让机器人在模拟中学习,降低真实交互成本。
  3. 自主 Agent:LLM 需要与工具、环境持续交互,RL 提供了学习和优化的框架。

简言之:当数据必须由模型自己产生时,RL 成为不可避免的选择

阅读指南:接下来的章节中,每当你看到"Agent",想想"做决策的小孩";看到"Environment",想想"小孩所处的房间";看到"Reward",想想"站稳了还是摔倒了"。这个直觉会帮助你理解所有后续内容。
二、领域地图:八个前沿方向

在进入具体领域前,先建立一个整体地图。以下八个方向涵盖了当前 RL 研究的主要前沿:

领域核心问题关键方法代表 Survey
LLM + RL (GFCR)LLM 后训练中的数据生成管线GRPO、RLHF、Self-DistillationGFCR
World Models环境动态的预测表示Dreamer、VLA、Video GenerationWorld Model
Agentic ReasoningLLM 作为自主 AgentPlanning、Tool Use、Multi-AgentAgentic
COAML决策质量直接优化End-to-End、ECM、Smart-PTOCOAML
RL Theory收敛性、样本复杂度Natural PG、Actor-Critic本周论文
Safe RL安全约束与可达性Safety Critics、Barrier Methods本周论文
Offline RL离线数据学习CQL、IQL、Model-Based经典方法
Multi-Agent RL多智能体协作/竞争QMIX、MAPPO、CTDE本周论文

注意这些领域并非孤立。GFCR 的 rollout 框架可以借助 World Model 降低交互成本;Agentic Reasoning 为 GFCR 提供了"服务目标"(自主 Agent 需要什么能力);COAML 为 GFCR 的 Filter 设计提供了替代优化目标;Safe RL 的约束可以嵌入 GFCR 的 Filter 模块。后文会反复回到这些交叉点。

二、GFCR:LLM 后训练的 Rollout 管线
核心问题
当数据必须由模型自己生成时,如何设计"数据工厂"?

为什么这很重要

传统 RL(如训练 Atari 游戏 AI)中,数据来自游戏模拟器——环境是固定的、确定的、免费的。但 LLM 后训练完全不同:数据由模型自己生成,每一次生成都需要计算资源,而生成质量直接决定训练效果。

更棘手的是,rollout(模型生成的候选响应)设计长期被当作"实现细节"——每个团队有自己的 trick,但缺乏系统性的框架。这导致复现困难、比较不公平、改进方向不明确。

GFCR (Generate-Filter-Control-Replay) 的核心贡献就是:把 rollout 设计提升为一等公民——给它一个系统性的框架、统一的符号体系、明确的模块化接口。

核心直觉:Rollout 管线就像一个工厂流水线

想象一个工厂生产零件:

  • Generate(生成) = 生产线制造出候选零件(多种设计方案)
  • Filter(筛选) = 质检部门检验零件质量(结构、功能、美观)
  • Control(控制) = 生产调度决定资源分配(哪些多生产、哪些早停)
  • Replay(复用) = 库存系统存储优质零件供未来复用

这个类比的关键在于:每个模块都是可独立改进的——你可以优化生产线(Generate)、升级质检标准(Filter)、改进调度算法(Control)、优化库存策略(Replay),而不需要重建整个工厂。

GFCR 生命周期全景图
图 1:GFCR 生命周期全景 — Generate-Filter-Control-Replay 四大模块的交互关系(GFCR Survey, Fig.1)

技术机制:四阶段详解

模块功能核心设计空间
G · Generate候选轨迹生成拓扑结构(链式/树状/段式)、引导信息(rubrics/plans)、采样策略(temperature/diversity)
F · Filter中间信号构建六类信号:结构有效性、正确性验证、过程质量、比较评估、学习价值、训练信号
C · Control计算分配与决策Prompt 选择、预算调度、早停、分支剪枝、On/Off-Policy 控制
R · Replay跨 rollout 复用响应重采样、片段重组合、自演化课程

Generate:如何生成好的候选?

Generate 模块的设计空间可以用三个轴来理解:

  • 拓扑 (Topology):rollout 的结构形态——线性链式(标准 CoT)、树状(ReAct/MCTS,支持探索多个分支)、段式(Segment Rollout,将长任务分解为子段)。类比:就像写文章,你可以一口气写完(链式)、先列大纲再展开(树状)、或分段落写(段式)。
  • 引导 (Guidance):生成时注入的附加信息——rubrics(评分标准)、plans(计划)、critiques(批评意见)、tool traces(工具执行记录)。类比:就像学生考试,有的闭卷(无引导)、有的开卷(有参考)、有的可以给提示(有 rubrics)。
  • 采样 (Sampling):探索策略——temperature、top-p、diversity beam。类比:temperature 高就像头脑风暴(想法多样但质量参差),temperature 低就像审慎思考(答案保守但可靠)。
Generate 模块设计轴
图 2:Generate 模块的三大设计轴 — 拓扑、引导、采样策略的组合空间(GFCR Survey)

Filter:如何从噪声中提取信号?

Filter 是 GFCR 中最关键的模块——它决定了"什么样的生成结果值得学习"。GFCR 区分了六类 Filter 机制,从"硬"到"软"、从"简单"到"复杂":

Filter 类型信号性质典型方法适用场景
结构有效性格式是否正确?JSON 格式检验、代码语法检查代码生成、结构化输出
正确性验证答案是否正确?单元测试、符号验证、Verifier数学题、编程题
过程质量每一步是否合理?PRM (Process Reward Model)复杂多步推理
比较评估哪个更好?LM-as-a-Judge、Bradley-Terry开放式创作、对话
学习价值能带来什么新信息?不确定性、新颖性探索性任务
训练信号如何转化为梯度?Advantage 估计、GAE通用 RL 训练

一个自然的疑问是:为什么需要这么多种 Filter? 答案是:不同任务需要不同的"质检标准"。数学题需要精确的正确性验证(硬门槛),创意写作需要相对比较(软排序),复杂推理需要过程监督(细粒度)——没有一种 Filter 能通吃所有任务。

Filter 模块六类机制
图 3:Filter 模块的六类信号构建机制 — 从结构有效性到学习价值信号(GFCR Survey)

Control 与 Replay:资源的智能调度

Control 回答"有限的计算预算如何分配"——哪些 prompt 值得多 roll 几次?什么时候该早停?Replay 回答"历史数据如何复用"——好的 rollout 是否可以跨任务复用?

这两个模块的核心洞察是:数据质量比数据数量更重要。与其均匀地生成大量低质量 rollout,不如集中资源生成少量高质量 rollout,并智能复用。

GFCR 的深层意义:GFCR 不只是一个技术框架,而是一种设计哲学——把 rollout 视为可工程化的系统组件,每个模块都可以独立优化、组合、替换。这与传统"一个算法打天下"的思维截然不同。
三、世界模型:机器人的"想象力引擎"
核心问题
如何让机器人在"想象"中练习,降低真实交互成本?

为什么这很重要

训练机器人最大的瓶颈不是算法,而是数据。真实机器人交互极其昂贵——需要物理硬件、人工监督、安全考虑。一个机器人手臂练习抓取,可能需要数万次尝试才能学会,而每次尝试都可能导致损坏。

世界模型的核心思想是:让机器人在"脑海"中模拟环境——给定当前状态和动作,预测下一步会发生什么。如果预测足够准确,机器人就可以在这个"模拟器"中无限次练习,而无需触碰真实世界。

核心直觉:世界模型就像人类的"心理模拟"

当你开车时,看到前车刹车灯亮起,你会在脑中"模拟"接下来的场景:"如果我继续以当前速度行驶,3 秒后会追尾;如果我变道,旁边车道是空的。"这个心理模拟让你可以在不实际执行动作的情况下评估不同选择。

机器人的世界模型就是做同样的事——给定"当前摄像头画面 + 要执行的动作",预测"下一帧画面 + 奖励信号"。

世界模型全景图
图 4:世界模型在机器人学习中的角色 — 从预测到规划,从模拟到评估(World Model Survey, Fig.1)

技术机制:策略如何与世界模型耦合?

世界模型不是孤立存在的——它需要与策略(决定做什么的模型)交互。两者如何"连接"决定了整个系统的架构:

耦合风格核心思想代表工作优缺点
Decoupled先训练视频生成模型,再训练独立策略UniPi, VidMan, Vidar简单但信息传递有损失
Single-backbone视觉-动作统一模型VLA 系列端到端但训练难度大
Latent Dynamics在压缩的潜空间中预测动态Dreamer, TDM高效但可能丢失细节
Unified VLA端到端视觉-语言-动作基础模型驱动通用性强但计算成本高

选择哪种耦合方式,本质上是在模块化 vs 端到端之间做权衡。Decoupled 更容易调试和复用,Unified VLA 可能有更高的性能上限。

策略耦合分类图
图 5:世界模型与策略的耦合分类 — 从 Decoupled 到 Unified VLA(World Model Survey)

视频世界模型的能力层级

世界模型的发展正经历一个清晰的"能力爬坡":

  1. Imagination-based:给定初始帧,"想象"接下来会发生什么(无控制)
  2. Controllable:可以指定动作,看"如果我这样做,会发生什么"
  3. Structured:引入物理先验(重力、碰撞),预测更符合物理规律
  4. Foundation-scale:基础模型规模的世界模型,通用跨任务

目前的水平大约在第 2-3 层之间——我们可以控制视频生成,但物理真实性(特别是接触、摩擦等细节)仍是挑战。

视频世界模型能力层级
图 6:机器人视频世界模型的能力层级演进(World Model Survey)
世界模型与 GFCR 的交汇:GFCR 的 Generate 模块(候选 rollout 生成)可以借助世界模型实现——在世界模型中低成本生成 rollout 候选项,筛选后再在真实环境中执行。这是一种"世界模型增强的 rollout",将两个领域无缝连接。
四、Agentic Reasoning:从"回答问题"到"自主行动"
核心问题
LLM 擅长回答已知问题,但如何让它在未知环境中自主行动?

为什么这很重要

ChatGPT 可以写出优美的文章,但如果你让它"帮我订一张去纽约的机票",它可能会生成一段看似合理但完全虚构的预订流程——因为它没有真正"做"的能力,只是在"说"。

Agentic Reasoning 的核心目标就是:让 LLM 从"说话者"变成"行动者"——能够规划、使用工具、与环境持续交互、从反馈中学习。

核心直觉:给 LLM 装上"手脚"和"感官"

想象一个被锁在房间里的人——他头脑很聪明,但无法感知外界(没有感官),也无法影响外界(没有手脚)。LLM 就像这个人:拥有大量知识,但缺乏与真实世界交互的能力。

Agentic Reasoning 就是给 LLM 装上:

  • 感官 = 工具调用(搜索、读取文件、查询数据库)
  • 手脚 = 行动能力(执行代码、发送请求、控制设备)
  • 记忆 = 跨会话的信息保持
  • 反思 = 从错误中学习和调整策略
Agentic Reasoning 架构图
图 7:Agentic Reasoning 的核心架构 — 规划、行动、学习的三层循环(Agentic Reasoning Survey)

技术机制:三层能力维度

层次能力核心方法
Foundational单 Agent 规划、工具使用CoT(思维链)、ReAct(推理+行动交替)、Plan-then-act
Self-evolving从反馈中学习、记忆、适应RL 后训练、记忆机制、自我反思
Collective多 Agent 协调、知识共享多 Agent 通信、协作策略

In-context vs Post-training:两种获取能力的方式

Agentic 能力可以通过两种根本不同的方式获得,各有优劣:

  • In-context(测试时):通过精心设计的 prompt 让模型在生成过程中"思考"——如 CoT("让我们一步一步想")、ReAct("思考→行动→观察"循环)。优势:无需重训练,灵活。劣势:受限于上下文窗口,无法持久学习。
  • Post-training(训练时):通过 RL 或 SFT 在训练时优化模型行为——如 GRPO、PPO、DPO。优势:能力内化到模型参数中,更持久。劣势:需要大量训练数据和计算。

当前的趋势是两者结合——用 In-context 方法快速原型验证,用 Post-training 将验证有效的策略固化到模型中。

Self-evolving Agentic 循环
图 8:Self-evolving Agentic Reasoning — 反射反馈、参数适应、验证器反馈的三种自演化机制(Agentic Survey)

工具使用的三条路线

Agent 如何使用外部工具?三种不同思路:

  • In-context 集成:在 prompt 中说明工具功能和调用格式,让模型自行决定何时调用。类比:给一个人说明书,让他自己决定什么时候用什么工具。
  • Post-training 集成:通过 RL 训练模型学会更高效地选择和使用工具。类比:通过反复练习,让人形成"肌肉记忆"——看到某种情况自动知道用什么工具。
  • 编排层:在模型之上加一个协调层,由编排器决定调用哪个工具、如何处理结果。类比:像项目经理一样,协调多个专家(工具)完成复杂任务。
Agentic 与 GFCR 的深层联系:Agentic Reasoning 定义了"自主 Agent"的目标形态,而 GFCR 提供了实现这个目标的"数据工厂"。Agent 的多步交互 → GFCR Generate 的树状拓扑;Agent 的工具验证 → GFCR Filter 的 verifier 信号;Agent 的自我演化 → GFCR Replay 的自演化课程。两者是目标与手段的关系。
五、COAML:当"预测准确"不等于"决策正确"
核心问题
机器学习优化预测误差,但真实目标是决策质量——如何弥合这个鸿沟?

为什么这很重要

传统机器学习的标准流程是:预测→优化。先训练一个预测模型(如预测需求量、交通流量),然后用预测结果作为输入,运行优化算法(如库存优化、路线规划)得到最终决策。

这个流程有一个根本缺陷:预测误差和决策质量不是一回事。想象一个导航软件:它可能准确预测了每条路的拥堵程度(预测误差小),但选了一条虽然当前通畅却会很快堵死的路线(决策质量差)。反之,一个粗略的预测("这条路大概会堵")可能足以做出好的决策("避开这条路")。

COAML(Combinatorial Optimization Augmented Machine Learning)的核心洞察是:应该直接优化决策质量,而非中间代理指标(预测误差)

核心直觉:导航软件的启示

想象两个导航软件:

  • 传统 ML(PTO):花大量精力精确预测每条路的速度(误差 ±2 km/h),然后基于这些预测选路。如果预测在关键路口出错,整个路线可能完全错误。
  • COAML:不关心"每条路精确速度是多少",只关心"走哪条路最快"。它把路线规划求解器嵌入学习过程,直接优化"实际到达时间"。

关键区别在于:PTO 的"预测"和"优化"是两个独立步骤,误差会在传递中放大;COAML 的"预测"和"优化"是端到端联合训练的,梯度直接从最终决策质量回传。

COAML 框架图
图 9:COAML 统一框架 — 将组合优化 oracle 嵌入学习管线,实现决策质量端到端优化(COAML Survey, Fig.1)

技术机制:从 PTO 到 COAML

范式核心思想学习方式核心问题
PTO先预测,再优化两阶段独立预测误差 ≠ 决策质量
Smart-PTO端到端,但限于线性目标决策梯度非线性目标无法处理
COAML将优化求解器作为可微分层端到端梯度回传需要可微分 oracle

COAML 的核心技术挑战是:如何让组合优化求解器可微分? 传统求解器(如线性规划、整数规划)是离散的、不可微的。COAML 的解决方案包括:

  • 隐函数微分:利用 KKT 条件计算优化问题的隐式梯度
  • 凸松弛:将离散问题松弛为连续问题,求导后再投影回离散解
  • 扰动法:在输入上加微小扰动,观察输出变化来估计梯度

三种学习范式

范式说明代表方法
ECM直接优化经验决策成本端到端训练
SL模仿专家决策行为克隆
RL通过交互学习最优决策策略梯度
COAML 范式对比
图 10:决策优化范式对比 — 从 PTO 到 Smart-PTO 到 COAML 的演进(COAML Survey)
COAML 与 GFCR 的交汇:GFCR 的 Filter 模块需要某种"评估信号"来判断 rollout 质量。COAML 提供了一种替代思路:与其用人工设计的 verifier/judge,不如直接优化"这个 rollout 对最终模型性能的贡献"——这正是 COAML 的"决策损失"思想。Verifier 是代理指标,决策质量才是真实目标。
六、RL Theory:为什么需要理论?
核心问题
RL 算法经常"看起来有效但不知道为什么"——理论能给我们什么?

为什么理论重要

RL 领域有一个尴尬的现象:很多算法在实践中表现很好,但我们无法解释为什么。PPO 在大量任务上有效,但收敛性保证很弱;Q-Learning 简单直观,但在非平稳环境中的行为难以预测。

理论的价值在于:

  • 可预测性:知道算法在什么条件下收敛、多快收敛
  • 可比较性:不同算法的样本复杂度下界是什么
  • 可设计性:基于理论洞察设计新算法

本周 Theory 突破概览

本周 arXiv 上 RL Theory 方向非常活跃(7/15 篇论文),表明这是一个热门前沿:

方向核心贡献意义
二阶 Actor-Critic利用策略 Hessian 的二阶信息加速收敛一阶方法收敛慢,二阶可能突破
ε⁻² Sample Complexity证明 Actor-Critic 可达 ε⁻² 样本复杂度接近理论下界
Natural PG Bellman-Operator建立自然策略梯度与 Bellman 算子的联系统一两个经典框架
Non-Markovian PG历史压缩到内部状态的策略梯度突破 MDP 假设,通向更通用 RL
Q-learning 切换系统Q-learning 在切换系统中的稳定性理论理解 Q-learning 的非平稳行为
Non-Markovian PG 的特别意义:传统 RL 假设环境是 MDP(当前状态包含所有历史信息),但真实世界很少满足这个假设。Non-Markovian PG 允许将整个历史压缩到内部状态来做策略梯度——这与 Agentic Reasoning 中的"Memory & Adaptation"(Agent 需要记住跨会话的信息)有潜在联系。
七、Safe RL:在追求最优时保证安全
核心问题
如何让 RL Agent 在追求性能的同时不突破安全边界?

为什么这很重要

标准 RL 的目标是最大化累积奖励。但现实中,很多任务有硬约束——自动驾驶不能撞人,机器人不能损坏设备, trading bot 不能把本金亏完。Safe RL 研究如何在优化性能的同时满足这些约束。

核心直觉:安全约束就像护栏

想象在悬崖边开车:你想尽快到达目的地(优化目标),但不能掉下悬崖(安全约束)。Safe RL 就是在道路上安装"护栏"——Agent 可以在护栏内自由探索,但一旦接近边界就会受到警告或惩罚。

主要方法

方法核心思想适用场景
Safety Critics训练一个额外的 Critic 评估安全性需要精细安全评估的场景
Barrier Certificates构造数学障碍函数,保证不进入危险区域有明确数学模型的系统
Constrained MDP将约束直接融入 MDP 框架通用框架
可达性分析验证系统是否能在危险发生前到达安全状态机器人导航
Safe RL 与 GFCR 的结合:GFCR 的 Filter 模块中的"结构有效性检验"可以作为安全门控——在 rollout 进入危险区域前拦截。将 Safe RL 的约束嵌入 GFCR Filter,可以构建双层安全体系:Filter 做快速预筛选,Safety Critic 做精细评估。
八、Offline RL 与 Multi-Agent RL
两个互补方向
从静态数据学习 & 多智能体协作

Offline RL:没有环境交互时如何学习?

标准 RL 需要持续与环境交互来获取新数据。但很多场景下这是不可能的——医疗决策不能随意尝试,金融交易不能拿真金白银试错。Offline RL 研究如何仅从已有的离线数据中学习。

核心挑战是分布偏移:离线数据只覆盖了状态-动作空间的一小部分,而学习到的策略可能会探索数据未覆盖的区域,导致价值估计严重偏差。

方法核心思想关键洞察
CQL保守 Q-learning,惩罚对 OOD 动作的高估"不确定时保持悲观"
IQL隐式 Q-learning,避免显式策略提取直接学习价值函数而非策略
Model-Based Offline学习世界模型,在模型中规划用模型"填补"数据空白

Offline RL 与 World Model 有天然联系:Model-Based Offline RL 就是学习一个世界模型然后在其中规划——这正是 World Model Survey 讨论的核心方向。

Multi-Agent RL:当多个 Agent 共存时

当多个 Agent 在同一个环境中学习时,问题变得更复杂——每个 Agent 面临的环境是非平稳的(因为其他 Agent 的策略在变化)。

核心挑战:

  • 非平稳性:其他 Agent 策略变化导致环境动态变化
  • 信用分配:团队奖励如何归因到个体 Agent
  • 可扩展性:Agent 数量增加时的计算和通信开销
架构说明代表方法
CTDE中心化训练(知道全局信息),分布式执行(只看局部)QMIX, MAPPO
Fully Decentralized每个 Agent 独立学习Independent PPO
Communication-basedAgent 之间显式通信CommNet, TarMAC
九、统一图景:四大 Survey 如何相互连接

读到此处,你已经了解了八个独立领域。但 RL 的真正力量在于这些领域的交叉融合。让我们用一张图来理解四大 Survey 的内在联系:

Survey核心角色为其他 Survey 提供什么?从其他 Survey 获得什么?
GFCR数据工厂为 Agentic 提供 rollout 框架;为 COAML 提供信号来源从 World Model 获得低成本 rollout 生成器;从 Safe RL 获得安全约束 Filter
World Model想象引擎为 GFCR 提供低成本 rollout 模拟;为 Offline RL 提供 Model-Based 方法从 GFCR 获得 rollout 设计原则;从 Agentic 获得多步交互需求
Agentic目标定义为 GFCR 定义"服务目标";为 World Model 提供应用场景从 GFCR 获得数据生成能力;从 COAML 获得决策优化目标
COAML目标修正为 GFCR Filter 提供替代优化目标;为 Agentic 提供决策质量保障从 GFCR 获得实际信号;从 RL Theory 获得收敛保证

统一趋势

RL 正在经历从「算法优化」到「系统设计」的范式转移:

  • 单一目标优化 → 多组件协同的端到端管道(GFCR)
  • 孤立方法模块化、可组合的框架
  • 纯环境驱动LLM 先验 + 世界模型 + RL 的融合
  • 离线优化在线 rollout + 离线数据的混合范式
最核心的洞察:从"选择哪个 RL 算法"到"设计什么样的数据生成管线",这个转变让 RL 从纯学术问题变成了工程实践的核心。数据质量正在成为比算法选择更关键的差异化因素。
十、开放问题:我们离真正的自主智能还有多远?

尽管 RL 在 2026 年已经取得了巨大进展,以下问题仍然悬而未决:

  1. Verifier 的校准困境:GFCR Filter 的质量直接依赖于 verifier/judge 的校准精度。但如何系统性地评估 verifier 本身的质量?如果 verifier 错了,整个训练信号就错了。
  2. 计算预算的最优分配:GFCR Control 如何在多样化任务中实现计算预算的最优分配?目前的方法大多是启发式的,缺乏理论保证。
  3. Self-evolution 的安全性:GFCR Replay 的自演化课程可能导致 reward hacking(找到 verifier 的漏洞而非真正解决问题)。如何设计防 hack 的 verifier?
  4. 世界模型的物理真实性:视频生成模型作为世界模型时,物理真实性(接触、摩擦、刚体力学)仍是挑战。一个在世界模型中表现完美的策略,可能在真实世界中失败。
  5. COAML 的规模化:组合优化求解器的可微分化需要大量工程工作,如何自动化这个过程?如何让 COAML 适用于更大规模的问题?
  6. Agentic 的长程可靠性:Agent 在长时间跨度的多步交互中如何保持可靠性?当前系统在长程任务中容易"偏离轨道"。
  7. 跨领域的统一理论:GFCR、World Model、Agentic、COAML 各自有各自的框架,能否建立一个统一的数学框架来描述"数据生成-利用"的完整管线?

数据文件索引

  • GFCR Survey:~/Org/roam/raw/llm-rl-rollout-survey/sources/2605.02913.{pdf,txt,json}
  • World Model Survey:~/Org/roam/raw/world-model-robot-survey/sources/2605.00080.{pdf,txt,json}
  • Agentic Survey:~/Org/roam/raw/agentic-reasoning-survey/sources/2601.12538.{pdf,txt,json}
  • COAML Survey:~/Org/roam/raw/coaml-survey/sources/2601.10583.{pdf,txt,json}
  • 插图集:~/gongshangzheng.github.io/media/images/rl-landscape/(48 张 PNG)