强化学习全景 2026:从算法到系统的范式转移
本文不是论文列表的堆砌,而是一次教学式的领域导览。每个领域都遵循相同的认知路径:
- 为什么重要——这个领域解决什么痛点?
- 核心直觉——用一个类比或直觉把握本质
- 技术机制——具体如何实现?关键方法对比
- 与其他领域的联系——它如何嵌入更大的 RL 图景?
你可以按顺序阅读(推荐),也可以直接跳到你感兴趣的领域——每个领域都是自包含的。
如果你 2023 年关注 AI,RL(强化学习)可能还是一个"小众方向"——AlphaGo 之后似乎就没什么大新闻了。但到 2026 年,RL 已经悄然成为 LLM 后训练、机器人学习、自主 Agent 的核心基础设施。
这个转变的关键在于:数据从哪里来?
传统机器学习中,数据是"给定"的——人类标注的图片、收集的文本、测量的传感器读数。但 RL 的数据必须由模型自己通过与环境交互来产生。在 LLM 后训练中,这个"环境"就是模型自己的输出——模型生成一段文本,用 reward model 打分,再用 RL 优化。这意味着:数据生成方式本身就是算法的一部分。
这个洞察催生了一个根本性的范式转移——从"选择哪个 RL 算法"到"设计什么样的数据生成管线"。四大核心 Survey 分别从不同角度捕捉了这个转移:
四大 Survey:一个问题的四个侧面
- GFCR (2605.02913, 47pp) — LLM 后训练中,rollout 数据如何生成、筛选、控制、复用?
- World Model (2605.00080, 43pp) — 机器人如何在"想象"中练习,降低真实交互成本?
- Agentic Reasoning (2601.12538, 135pp) — LLM 如何从"回答问题"进化为"自主行动"?
- COAML (2601.10583, 35pp) — 机器学习如何直接优化"决策质量"而非"预测精度"?
这四个问题看似独立,实则共享同一个底层主题:数据生成与利用的系统设计。GFCR 设计 LLM 的 rollout 管线,World Model 构建机器人的"想象引擎",Agentic Reasoning 扩展 LLM 的行动空间,COAML 重新定义学习目标——它们都在回答:如何让 AI 系统更聪明地产生和使用数据?
什么是强化学习?
强化学习(Reinforcement Learning, RL)是一种机器学习范式,核心思想是:让智能体(Agent)通过与环境(Environment)的反复交互,学会做出最优决策。
用最简单的类比来说:RL 就像小孩学走路。
- 小孩 = Agent(智能体,做决策的主体)
- 房间 = Environment(环境,小孩所处的世界)
- 当前姿势 = State(状态,当前的情况)
- 迈出一步 = Action(动作,做出的选择)
- 站稳了 / 摔倒了 = Reward(奖励,环境的反馈)
小孩不会读说明书学走路。他通过尝试(迈出一步)、观察结果(站稳还是摔倒)、调整策略(下次尝试不同的姿势)来逐步学会。RL 的本质就是这个过程——试错学习。
RL 与监督学习的区别
你可能更熟悉监督学习(Supervised Learning)——比如图像分类:给模型一堆标注好的图片("这是猫"、"这是狗"),模型学会从图片到标签的映射。
RL 与监督学习有两个根本区别:
| 维度 | 监督学习 | 强化学习 |
|---|---|---|
| 数据来源 | 人类标注的(给定) | Agent 自己产生的(需交互) |
| 反馈类型 | 即时、明确的标签 | 延迟、稀疏的奖励信号 |
| 目标 | 最小化预测误差 | 最大化长期累积奖励 |
| 典型任务 | 图像分类、翻译、语音识别 | 玩游戏、机器人控制、推荐系统 |
这个区别至关重要:在 RL 中,数据不是给定的,而是必须由 Agent 自己产生。这意味着"如何产生数据"本身就是算法设计的一部分——这也是 GFCR 等框架的核心关注点。
核心挑战:探索 vs 利用
RL 面临一个永恒的权衡:
- 利用(Exploitation):做当前已知最好的选择(走已经会走的路)
- 探索(Exploration):尝试新的选择,可能发现更好的策略(走没走过的路)
如果你总是利用,可能错过更好的策略;如果你总是探索,浪费大量时间在无效的尝试上。找到探索和利用的平衡,是 RL 算法设计的核心挑战之一。
为什么 RL 在 2026 年突然变得重要?
RL 并不是新技术——它已经有几十年的历史。但 2023-2026 年发生了几个关键变化,让 RL 从"小众方向"变成了"核心基础设施":
- LLM 后训练:GPT-4、Claude 等模型的训练不仅仅是"预测下一个词",还需要用 RL 来对齐人类偏好(RLHF)。数据由模型自己生成,RL 优化这些数据的质量。
- 机器人学习:真实机器人数据极其昂贵,RL 让机器人在模拟中学习,降低真实交互成本。
- 自主 Agent:LLM 需要与工具、环境持续交互,RL 提供了学习和优化的框架。
简言之:当数据必须由模型自己产生时,RL 成为不可避免的选择。
在进入具体领域前,先建立一个整体地图。以下八个方向涵盖了当前 RL 研究的主要前沿:
| 领域 | 核心问题 | 关键方法 | 代表 Survey |
|---|---|---|---|
| LLM + RL (GFCR) | LLM 后训练中的数据生成管线 | GRPO、RLHF、Self-Distillation | GFCR |
| World Models | 环境动态的预测表示 | Dreamer、VLA、Video Generation | World Model |
| Agentic Reasoning | LLM 作为自主 Agent | Planning、Tool Use、Multi-Agent | Agentic |
| COAML | 决策质量直接优化 | End-to-End、ECM、Smart-PTO | COAML |
| RL Theory | 收敛性、样本复杂度 | Natural PG、Actor-Critic | 本周论文 |
| Safe RL | 安全约束与可达性 | Safety Critics、Barrier Methods | 本周论文 |
| Offline RL | 离线数据学习 | CQL、IQL、Model-Based | 经典方法 |
| Multi-Agent RL | 多智能体协作/竞争 | QMIX、MAPPO、CTDE | 本周论文 |
注意这些领域并非孤立。GFCR 的 rollout 框架可以借助 World Model 降低交互成本;Agentic Reasoning 为 GFCR 提供了"服务目标"(自主 Agent 需要什么能力);COAML 为 GFCR 的 Filter 设计提供了替代优化目标;Safe RL 的约束可以嵌入 GFCR 的 Filter 模块。后文会反复回到这些交叉点。
为什么这很重要
传统 RL(如训练 Atari 游戏 AI)中,数据来自游戏模拟器——环境是固定的、确定的、免费的。但 LLM 后训练完全不同:数据由模型自己生成,每一次生成都需要计算资源,而生成质量直接决定训练效果。
更棘手的是,rollout(模型生成的候选响应)设计长期被当作"实现细节"——每个团队有自己的 trick,但缺乏系统性的框架。这导致复现困难、比较不公平、改进方向不明确。
GFCR (Generate-Filter-Control-Replay) 的核心贡献就是:把 rollout 设计提升为一等公民——给它一个系统性的框架、统一的符号体系、明确的模块化接口。
核心直觉:Rollout 管线就像一个工厂流水线
想象一个工厂生产零件:
- Generate(生成) = 生产线制造出候选零件(多种设计方案)
- Filter(筛选) = 质检部门检验零件质量(结构、功能、美观)
- Control(控制) = 生产调度决定资源分配(哪些多生产、哪些早停)
- Replay(复用) = 库存系统存储优质零件供未来复用
这个类比的关键在于:每个模块都是可独立改进的——你可以优化生产线(Generate)、升级质检标准(Filter)、改进调度算法(Control)、优化库存策略(Replay),而不需要重建整个工厂。
技术机制:四阶段详解
| 模块 | 功能 | 核心设计空间 |
|---|---|---|
| G · Generate | 候选轨迹生成 | 拓扑结构(链式/树状/段式)、引导信息(rubrics/plans)、采样策略(temperature/diversity) |
| F · Filter | 中间信号构建 | 六类信号:结构有效性、正确性验证、过程质量、比较评估、学习价值、训练信号 |
| C · Control | 计算分配与决策 | Prompt 选择、预算调度、早停、分支剪枝、On/Off-Policy 控制 |
| R · Replay | 跨 rollout 复用 | 响应重采样、片段重组合、自演化课程 |
Generate:如何生成好的候选?
Generate 模块的设计空间可以用三个轴来理解:
- 拓扑 (Topology):rollout 的结构形态——线性链式(标准 CoT)、树状(ReAct/MCTS,支持探索多个分支)、段式(Segment Rollout,将长任务分解为子段)。类比:就像写文章,你可以一口气写完(链式)、先列大纲再展开(树状)、或分段落写(段式)。
- 引导 (Guidance):生成时注入的附加信息——rubrics(评分标准)、plans(计划)、critiques(批评意见)、tool traces(工具执行记录)。类比:就像学生考试,有的闭卷(无引导)、有的开卷(有参考)、有的可以给提示(有 rubrics)。
- 采样 (Sampling):探索策略——temperature、top-p、diversity beam。类比:temperature 高就像头脑风暴(想法多样但质量参差),temperature 低就像审慎思考(答案保守但可靠)。
Filter:如何从噪声中提取信号?
Filter 是 GFCR 中最关键的模块——它决定了"什么样的生成结果值得学习"。GFCR 区分了六类 Filter 机制,从"硬"到"软"、从"简单"到"复杂":
| Filter 类型 | 信号性质 | 典型方法 | 适用场景 |
|---|---|---|---|
| 结构有效性 | 格式是否正确? | JSON 格式检验、代码语法检查 | 代码生成、结构化输出 |
| 正确性验证 | 答案是否正确? | 单元测试、符号验证、Verifier | 数学题、编程题 |
| 过程质量 | 每一步是否合理? | PRM (Process Reward Model) | 复杂多步推理 |
| 比较评估 | 哪个更好? | LM-as-a-Judge、Bradley-Terry | 开放式创作、对话 |
| 学习价值 | 能带来什么新信息? | 不确定性、新颖性 | 探索性任务 |
| 训练信号 | 如何转化为梯度? | Advantage 估计、GAE | 通用 RL 训练 |
一个自然的疑问是:为什么需要这么多种 Filter? 答案是:不同任务需要不同的"质检标准"。数学题需要精确的正确性验证(硬门槛),创意写作需要相对比较(软排序),复杂推理需要过程监督(细粒度)——没有一种 Filter 能通吃所有任务。
Control 与 Replay:资源的智能调度
Control 回答"有限的计算预算如何分配"——哪些 prompt 值得多 roll 几次?什么时候该早停?Replay 回答"历史数据如何复用"——好的 rollout 是否可以跨任务复用?
这两个模块的核心洞察是:数据质量比数据数量更重要。与其均匀地生成大量低质量 rollout,不如集中资源生成少量高质量 rollout,并智能复用。
为什么这很重要
训练机器人最大的瓶颈不是算法,而是数据。真实机器人交互极其昂贵——需要物理硬件、人工监督、安全考虑。一个机器人手臂练习抓取,可能需要数万次尝试才能学会,而每次尝试都可能导致损坏。
世界模型的核心思想是:让机器人在"脑海"中模拟环境——给定当前状态和动作,预测下一步会发生什么。如果预测足够准确,机器人就可以在这个"模拟器"中无限次练习,而无需触碰真实世界。
核心直觉:世界模型就像人类的"心理模拟"
当你开车时,看到前车刹车灯亮起,你会在脑中"模拟"接下来的场景:"如果我继续以当前速度行驶,3 秒后会追尾;如果我变道,旁边车道是空的。"这个心理模拟让你可以在不实际执行动作的情况下评估不同选择。
机器人的世界模型就是做同样的事——给定"当前摄像头画面 + 要执行的动作",预测"下一帧画面 + 奖励信号"。
技术机制:策略如何与世界模型耦合?
世界模型不是孤立存在的——它需要与策略(决定做什么的模型)交互。两者如何"连接"决定了整个系统的架构:
| 耦合风格 | 核心思想 | 代表工作 | 优缺点 |
|---|---|---|---|
| Decoupled | 先训练视频生成模型,再训练独立策略 | UniPi, VidMan, Vidar | 简单但信息传递有损失 |
| Single-backbone | 视觉-动作统一模型 | VLA 系列 | 端到端但训练难度大 |
| Latent Dynamics | 在压缩的潜空间中预测动态 | Dreamer, TDM | 高效但可能丢失细节 |
| Unified VLA | 端到端视觉-语言-动作 | 基础模型驱动 | 通用性强但计算成本高 |
选择哪种耦合方式,本质上是在模块化 vs 端到端之间做权衡。Decoupled 更容易调试和复用,Unified VLA 可能有更高的性能上限。
视频世界模型的能力层级
世界模型的发展正经历一个清晰的"能力爬坡":
- Imagination-based:给定初始帧,"想象"接下来会发生什么(无控制)
- Controllable:可以指定动作,看"如果我这样做,会发生什么"
- Structured:引入物理先验(重力、碰撞),预测更符合物理规律
- Foundation-scale:基础模型规模的世界模型,通用跨任务
目前的水平大约在第 2-3 层之间——我们可以控制视频生成,但物理真实性(特别是接触、摩擦等细节)仍是挑战。
为什么这很重要
ChatGPT 可以写出优美的文章,但如果你让它"帮我订一张去纽约的机票",它可能会生成一段看似合理但完全虚构的预订流程——因为它没有真正"做"的能力,只是在"说"。
Agentic Reasoning 的核心目标就是:让 LLM 从"说话者"变成"行动者"——能够规划、使用工具、与环境持续交互、从反馈中学习。
核心直觉:给 LLM 装上"手脚"和"感官"
想象一个被锁在房间里的人——他头脑很聪明,但无法感知外界(没有感官),也无法影响外界(没有手脚)。LLM 就像这个人:拥有大量知识,但缺乏与真实世界交互的能力。
Agentic Reasoning 就是给 LLM 装上:
- 感官 = 工具调用(搜索、读取文件、查询数据库)
- 手脚 = 行动能力(执行代码、发送请求、控制设备)
- 记忆 = 跨会话的信息保持
- 反思 = 从错误中学习和调整策略
技术机制:三层能力维度
| 层次 | 能力 | 核心方法 |
|---|---|---|
| Foundational | 单 Agent 规划、工具使用 | CoT(思维链)、ReAct(推理+行动交替)、Plan-then-act |
| Self-evolving | 从反馈中学习、记忆、适应 | RL 后训练、记忆机制、自我反思 |
| Collective | 多 Agent 协调、知识共享 | 多 Agent 通信、协作策略 |
In-context vs Post-training:两种获取能力的方式
Agentic 能力可以通过两种根本不同的方式获得,各有优劣:
- In-context(测试时):通过精心设计的 prompt 让模型在生成过程中"思考"——如 CoT("让我们一步一步想")、ReAct("思考→行动→观察"循环)。优势:无需重训练,灵活。劣势:受限于上下文窗口,无法持久学习。
- Post-training(训练时):通过 RL 或 SFT 在训练时优化模型行为——如 GRPO、PPO、DPO。优势:能力内化到模型参数中,更持久。劣势:需要大量训练数据和计算。
当前的趋势是两者结合——用 In-context 方法快速原型验证,用 Post-training 将验证有效的策略固化到模型中。
工具使用的三条路线
Agent 如何使用外部工具?三种不同思路:
- In-context 集成:在 prompt 中说明工具功能和调用格式,让模型自行决定何时调用。类比:给一个人说明书,让他自己决定什么时候用什么工具。
- Post-training 集成:通过 RL 训练模型学会更高效地选择和使用工具。类比:通过反复练习,让人形成"肌肉记忆"——看到某种情况自动知道用什么工具。
- 编排层:在模型之上加一个协调层,由编排器决定调用哪个工具、如何处理结果。类比:像项目经理一样,协调多个专家(工具)完成复杂任务。
为什么这很重要
传统机器学习的标准流程是:预测→优化。先训练一个预测模型(如预测需求量、交通流量),然后用预测结果作为输入,运行优化算法(如库存优化、路线规划)得到最终决策。
这个流程有一个根本缺陷:预测误差和决策质量不是一回事。想象一个导航软件:它可能准确预测了每条路的拥堵程度(预测误差小),但选了一条虽然当前通畅却会很快堵死的路线(决策质量差)。反之,一个粗略的预测("这条路大概会堵")可能足以做出好的决策("避开这条路")。
COAML(Combinatorial Optimization Augmented Machine Learning)的核心洞察是:应该直接优化决策质量,而非中间代理指标(预测误差)。
核心直觉:导航软件的启示
想象两个导航软件:
- 传统 ML(PTO):花大量精力精确预测每条路的速度(误差 ±2 km/h),然后基于这些预测选路。如果预测在关键路口出错,整个路线可能完全错误。
- COAML:不关心"每条路精确速度是多少",只关心"走哪条路最快"。它把路线规划求解器嵌入学习过程,直接优化"实际到达时间"。
关键区别在于:PTO 的"预测"和"优化"是两个独立步骤,误差会在传递中放大;COAML 的"预测"和"优化"是端到端联合训练的,梯度直接从最终决策质量回传。
技术机制:从 PTO 到 COAML
| 范式 | 核心思想 | 学习方式 | 核心问题 |
|---|---|---|---|
| PTO | 先预测,再优化 | 两阶段独立 | 预测误差 ≠ 决策质量 |
| Smart-PTO | 端到端,但限于线性目标 | 决策梯度 | 非线性目标无法处理 |
| COAML | 将优化求解器作为可微分层 | 端到端梯度回传 | 需要可微分 oracle |
COAML 的核心技术挑战是:如何让组合优化求解器可微分? 传统求解器(如线性规划、整数规划)是离散的、不可微的。COAML 的解决方案包括:
- 隐函数微分:利用 KKT 条件计算优化问题的隐式梯度
- 凸松弛:将离散问题松弛为连续问题,求导后再投影回离散解
- 扰动法:在输入上加微小扰动,观察输出变化来估计梯度
三种学习范式
| 范式 | 说明 | 代表方法 |
|---|---|---|
| ECM | 直接优化经验决策成本 | 端到端训练 |
| SL | 模仿专家决策 | 行为克隆 |
| RL | 通过交互学习最优决策 | 策略梯度 |
为什么理论重要
RL 领域有一个尴尬的现象:很多算法在实践中表现很好,但我们无法解释为什么。PPO 在大量任务上有效,但收敛性保证很弱;Q-Learning 简单直观,但在非平稳环境中的行为难以预测。
理论的价值在于:
- 可预测性:知道算法在什么条件下收敛、多快收敛
- 可比较性:不同算法的样本复杂度下界是什么
- 可设计性:基于理论洞察设计新算法
本周 Theory 突破概览
本周 arXiv 上 RL Theory 方向非常活跃(7/15 篇论文),表明这是一个热门前沿:
| 方向 | 核心贡献 | 意义 |
|---|---|---|
| 二阶 Actor-Critic | 利用策略 Hessian 的二阶信息加速收敛 | 一阶方法收敛慢,二阶可能突破 |
| ε⁻² Sample Complexity | 证明 Actor-Critic 可达 ε⁻² 样本复杂度 | 接近理论下界 |
| Natural PG Bellman-Operator | 建立自然策略梯度与 Bellman 算子的联系 | 统一两个经典框架 |
| Non-Markovian PG | 历史压缩到内部状态的策略梯度 | 突破 MDP 假设,通向更通用 RL |
| Q-learning 切换系统 | Q-learning 在切换系统中的稳定性理论 | 理解 Q-learning 的非平稳行为 |
为什么这很重要
标准 RL 的目标是最大化累积奖励。但现实中,很多任务有硬约束——自动驾驶不能撞人,机器人不能损坏设备, trading bot 不能把本金亏完。Safe RL 研究如何在优化性能的同时满足这些约束。
核心直觉:安全约束就像护栏
想象在悬崖边开车:你想尽快到达目的地(优化目标),但不能掉下悬崖(安全约束)。Safe RL 就是在道路上安装"护栏"——Agent 可以在护栏内自由探索,但一旦接近边界就会受到警告或惩罚。
主要方法
| 方法 | 核心思想 | 适用场景 |
|---|---|---|
| Safety Critics | 训练一个额外的 Critic 评估安全性 | 需要精细安全评估的场景 |
| Barrier Certificates | 构造数学障碍函数,保证不进入危险区域 | 有明确数学模型的系统 |
| Constrained MDP | 将约束直接融入 MDP 框架 | 通用框架 |
| 可达性分析 | 验证系统是否能在危险发生前到达安全状态 | 机器人导航 |
Offline RL:没有环境交互时如何学习?
标准 RL 需要持续与环境交互来获取新数据。但很多场景下这是不可能的——医疗决策不能随意尝试,金融交易不能拿真金白银试错。Offline RL 研究如何仅从已有的离线数据中学习。
核心挑战是分布偏移:离线数据只覆盖了状态-动作空间的一小部分,而学习到的策略可能会探索数据未覆盖的区域,导致价值估计严重偏差。
| 方法 | 核心思想 | 关键洞察 |
|---|---|---|
| CQL | 保守 Q-learning,惩罚对 OOD 动作的高估 | "不确定时保持悲观" |
| IQL | 隐式 Q-learning,避免显式策略提取 | 直接学习价值函数而非策略 |
| Model-Based Offline | 学习世界模型,在模型中规划 | 用模型"填补"数据空白 |
Offline RL 与 World Model 有天然联系:Model-Based Offline RL 就是学习一个世界模型然后在其中规划——这正是 World Model Survey 讨论的核心方向。
Multi-Agent RL:当多个 Agent 共存时
当多个 Agent 在同一个环境中学习时,问题变得更复杂——每个 Agent 面临的环境是非平稳的(因为其他 Agent 的策略在变化)。
核心挑战:
- 非平稳性:其他 Agent 策略变化导致环境动态变化
- 信用分配:团队奖励如何归因到个体 Agent
- 可扩展性:Agent 数量增加时的计算和通信开销
| 架构 | 说明 | 代表方法 |
|---|---|---|
| CTDE | 中心化训练(知道全局信息),分布式执行(只看局部) | QMIX, MAPPO |
| Fully Decentralized | 每个 Agent 独立学习 | Independent PPO |
| Communication-based | Agent 之间显式通信 | CommNet, TarMAC |
读到此处,你已经了解了八个独立领域。但 RL 的真正力量在于这些领域的交叉融合。让我们用一张图来理解四大 Survey 的内在联系:
| Survey | 核心角色 | 为其他 Survey 提供什么? | 从其他 Survey 获得什么? |
|---|---|---|---|
| GFCR | 数据工厂 | 为 Agentic 提供 rollout 框架;为 COAML 提供信号来源 | 从 World Model 获得低成本 rollout 生成器;从 Safe RL 获得安全约束 Filter |
| World Model | 想象引擎 | 为 GFCR 提供低成本 rollout 模拟;为 Offline RL 提供 Model-Based 方法 | 从 GFCR 获得 rollout 设计原则;从 Agentic 获得多步交互需求 |
| Agentic | 目标定义 | 为 GFCR 定义"服务目标";为 World Model 提供应用场景 | 从 GFCR 获得数据生成能力;从 COAML 获得决策优化目标 |
| COAML | 目标修正 | 为 GFCR Filter 提供替代优化目标;为 Agentic 提供决策质量保障 | 从 GFCR 获得实际信号;从 RL Theory 获得收敛保证 |
统一趋势
RL 正在经历从「算法优化」到「系统设计」的范式转移:
- 从单一目标优化 → 多组件协同的端到端管道(GFCR)
- 从孤立方法 → 模块化、可组合的框架
- 从纯环境驱动 → LLM 先验 + 世界模型 + RL 的融合
- 从离线优化 → 在线 rollout + 离线数据的混合范式
尽管 RL 在 2026 年已经取得了巨大进展,以下问题仍然悬而未决:
- Verifier 的校准困境:GFCR Filter 的质量直接依赖于 verifier/judge 的校准精度。但如何系统性地评估 verifier 本身的质量?如果 verifier 错了,整个训练信号就错了。
- 计算预算的最优分配:GFCR Control 如何在多样化任务中实现计算预算的最优分配?目前的方法大多是启发式的,缺乏理论保证。
- Self-evolution 的安全性:GFCR Replay 的自演化课程可能导致 reward hacking(找到 verifier 的漏洞而非真正解决问题)。如何设计防 hack 的 verifier?
- 世界模型的物理真实性:视频生成模型作为世界模型时,物理真实性(接触、摩擦、刚体力学)仍是挑战。一个在世界模型中表现完美的策略,可能在真实世界中失败。
- COAML 的规模化:组合优化求解器的可微分化需要大量工程工作,如何自动化这个过程?如何让 COAML 适用于更大规模的问题?
- Agentic 的长程可靠性:Agent 在长时间跨度的多步交互中如何保持可靠性?当前系统在长程任务中容易"偏离轨道"。
- 跨领域的统一理论:GFCR、World Model、Agentic、COAML 各自有各自的框架,能否建立一个统一的数学框架来描述"数据生成-利用"的完整管线?
数据文件索引
- GFCR Survey:~/Org/roam/raw/llm-rl-rollout-survey/sources/2605.02913.{pdf,txt,json}
- World Model Survey:~/Org/roam/raw/world-model-robot-survey/sources/2605.00080.{pdf,txt,json}
- Agentic Survey:~/Org/roam/raw/agentic-reasoning-survey/sources/2601.12538.{pdf,txt,json}
- COAML Survey:~/Org/roam/raw/coaml-survey/sources/2601.10583.{pdf,txt,json}
- 插图集:~/gongshangzheng.github.io/media/images/rl-landscape/(48 张 PNG)