ESC
输入关键词搜索文章
目录

8 个 Token 搞定规划

CVPR 2026 · POSTECH
极端压缩不是损失——是迫使模型学习更抽象的决策表示
8最少 Token/帧
40×规划加速
16bits/Token
128bits/图像
Part 1
引言:世界模型的效率困境

想象一下,你走进一个陌生的商场,想去某个店铺。你不会在脑中逐像素地记住每一块地砖和每一盏灯的位置——你记住的是"向左转、经过中庭、第二个通道右转"。这种抽象的空间表征,就是人类在复杂环境中高效导航的秘密 #Kim et al., 2026

在人工智能领域,这种能力被称为世界模型(World Model)——一个能够模拟环境动态的神经网络。它在强化学习中扮演着关键角色:通过"想象"未来状态,智能体可以在不与真实环境交互的情况下进行规划和决策 #Ha et al., 2018

然而,现有的世界模型面临一个尖锐的矛盾:感知保真度 vs 规划效率

当前的视觉生成模型(如 Stable Diffusion 的 SD-VAE)会将每帧图像编码为 784 个 token。一个最先进的导航世界模型 NWM(Navigation World Model),使用这些 token 进行单次轨迹优化需要 3 分钟的计算时间 #Bar et al., 2025。当规划需要实时响应时,3 分钟是不可接受的。

核心矛盾:生成式模型追求像素级重建,需要保存纹理、光照、阴影等大量感知细节。但规划真正需要的,是物体类别、空间位置、运动趋势这些低频语义特征。两者之间的目标错配,导致 token 数量级上的巨大浪费。

CompACT(Compact Action-Conditioned Tokenizer)的答案直接而有力:既然规划不需要像素级精度,那就把压缩推到极致。它将每帧图像压缩到仅仅 8-16 个离散 token(约 128-256 bits),同时在世界模型规划中达到与 784-token 基线相当的精度——40 倍的加速

反直觉的洞察

极端压缩不是一种损失——它迫使世界模型学习更抽象、与动作直接相关的表示。当模型无法依赖像素级细节时,它必须学会理解"发生了什么"而非"看到了什么"。

Part 2
问题剖析:为什么 784 个 Token 是规划瓶颈

Token 数量的平方代价

世界模型通常基于注意力架构(如 DiT、Transformer),其计算复杂度随 token 数量 $N$ 呈二次方增长 #Peebles et al., 2023。这意味着:

$$O(N^2) \quad \text{vs} \quad O(8^2)$$

784 个 token 的平方是 614,656,而 8 个 token 的平方只有 64——差了四个数量级。在每次 rollout 需要处理数百帧的规划场景中,这种差距被急剧放大。

感知-规划目标错配

传统的图像 tokenizer 设计目标很明确:最小化重建误差。SD-VAE #Rombach et al., 2022、VQGAN #Chang et al., 2022 都力求输出与输入尽可能一致——纹理、光照、阴影、反射,一个都不能少。

但规划需要的是什么呢?物体在哪、空间布局如何、什么在移动。这些信息量远小于完整的图像熵。

信息论视角:规划所需的信息量远小于完整图像的熵——动作空间通常是低维的(3-5 DOF),而图像是高维的(百万像素级)。这从信息论角度说明了极端压缩的理论可行性。CompACT 用 128-256 bits 编码一帧,远小于完整图像的信息量,但已足够支撑有效规划。

NWM 的 3 分钟困境

论文 #Kim et al., 2026 给出了一个具体的基准:NWM 使用 SD-VAE(784 tokens)进行规划时,单次轨迹优化耗时 178.78 秒(约 3 分钟)。而补充材料中的延迟分解显示,其中 99.2% 的时间消耗在模型 rollout 上——即不断前向传播预测未来状态的过程。

这 3 分钟里,真正花在优化算法上的时间微乎其微。瓶颈赤裸裸地指向 token 数量。

TokenizerToken 数规划延迟相对 NWM
SD-VAE784178.78 s
FlexTok6416.68 s10.7×
CompACT165.78 s30.9×
CompACT84.83 s37.0×
Part 3
CompACT Tokenizer 架构详解

CompACT 的整体架构分为三个阶段,如下图所示。

CompACT 整体架构 — Tokenizer 训练、潜空间世界模型训练、决策时规划
图 1:CompACT 的整体架构。(a)Tokenizer 训练:图像编码为紧凑 token,再解码重建;(b)潜空间世界模型训练:在压缩后的潜空间中学习状态转移;(c)决策时规划:通过优化动作序列使预测状态接近目标(来源:#Kim et al., 2026, Fig.1)

3.1 语义编码器 Ecompact

编码器的核心设计哲学:用冻结的语义特征,而非端到端训练的重建特征

编码器架构

输入图像 $\mathbf{o}$ → DINOv3-B(冻结)→ 语义 patch 特征 → Latent Resampler(交叉注意力)→ FSQ 量化 → 离散 token $\mathbf{z}$

冻结 DINOv3 #Simeoni et al., 2025:CompACT 使用预训练的 DINOv3-B 作为视觉编码器,并且冻结其权重。这是一个违背直觉但至关重要的设计选择。传统的 tokenizer 会微调编码器以更好地适配重建任务,但 CompACT 的消融实验清楚地表明:微调 DINOv3 会使重建质量从 rFID 2.40 退化到 5.22。
为什么冻结反而更好?微调会使编码器的表示向重建目标偏移——注意力从高层语义转向低频纹理。冻结 DINOv3 强制编码器"忘记"像素细节,只输出丰富的语义特征。这些特征正是规划所需的。
Latent Resampler:这是一个基于 Transformer Decoder 的交叉注意力模块。$N$ 个可学习的 query token($N \le 16$)通过交叉注意力从 DINOv3 的 patch 特征中"蒸馏"信息。每个 query token 自然地关注语义一致的图像区域——一个专注于物体 A,另一个关注物体 B,无需显式监督。
CompACT 的注意力可视化——每个 token 关注语义一致的区域
图 3:CompACT token 的注意力可视化。每个 compact token 自然关注语义一致的区域——ImageNet 中关注不同动物,RECON 中关注建筑结构,RoboNet 中关注机械臂末端执行器和操作目标(来源:#Kim et al., 2026, Fig.4)
FSQ(Finite Scalar Quantization)#Mentzer et al., 2023:一种无需码本的量化方法。配置 levels 为 $[8,8,8,5,5,5]$,每个 token 约 16 bits。FSQ 相比传统 VQ 的优势在于:基于 level 的 radix 表示保留了几何结构,使得在离散空间中可以直接计算语义距离——这对规划中的 cost function 至关重要。

3.2 生成式解码器 Dcompact

从 8-16 个 token 直接重建像素是一个病态问题——信息瓶颈使确定性解压不可能。CompACT 的应对是:不解压,而是生成

CompACT Tokenizer 架构细节
图 2:Tokenizer 架构细节。训练时只更新 Latent Resampler 和 Dcompact;Eψ(VQGAN)产生掩码目标 token,Dψ 仅在推理时用于像素重建(来源:#Kim et al., 2026, Fig.2)

生成式解码的策略是引入一个中间表示——使用 MaskGIT-VQGAN #Chang et al., 2022 的 latent tokens($N_\psi = 196$ tokens)作为目标。具体来说:

  1. 编码:MaskGIT-VQGAN 的编码器 $\mathcal{E}_\psi$ 将图像编码为 196 个 token $\mathbf{z}^\psi$,这些 token 包含了紧凑 token 丢弃的高频细节
  2. 掩码生成:解码器 $\mathcal{D}_\text{compact}$ 以紧凑 token $\mathbf{z}$ 为条件,学习从掩码状态恢复 $\mathbf{z}^\psi$
  3. 像素重建:MaskGIT-VQGAN 的解码器 $\mathcal{D}_\psi$ 将重建的 196 个 token 解码为像素图像

训练目标是最小化掩码 token 的负对数似然:

$$\mathcal{L}_\text{tok} = -\mathbb{E}_{\mathbf{z}^\psi} \big[ \log p(\mathbf{z}^\psi | \mathbf{z}, M(\mathbf{z}^\psi)) \big]$$

其中 $M(\cdot)$ 表示随机掩码操作。注意:Tokenizer 的训练不涉及像素级重建损失——完全在潜空间中进行。

推理时,$\mathcal{D}_\text{compact}$ 从全部掩码开始,按置信度迭代 unmask(16 步采样,采用余弦调度),最终通过 $\mathcal{D}_\psi$ 重建像素。

超参数TokenizerLatent ResamplerDcompact
优化器AdamW ($\beta_1$=0.9, $\beta_2$=0.999)
学习率1e-4, Cosine + 10K warmup
Weight Decay0.01
ImageNet 训练步数500K
Batch Size512
深度5 层16 层
维度/注意力头数768/81024/8

总参数量 775M(含 Ecompact、Dcompact、Dψ)[见补充材料]。Dcompact 采用 MM-DiT 架构 #Esser et al., 2024——一种针对多模态输入设计的 DiT 变体,包含两个并行处理流:一个处理 compact token,另一个处理 target token,通过自注意力融合。

D_compact 的 MM-DiT 解码器架构
图 4:Dcompact 采用 MM-DiT 架构,包含两个并行处理流(来源:#Kim et al., 2026,补充材料)

范式转变

从"精确重建"到"条件生成"的转变,是 CompACT 突破信息瓶颈的关键。紧凑 token 只"提示"场景的语义骨架,解码器"想象"出合理的高频细节。这类似于人类从简笔画理解场景——不需要所有像素,就能想象出完整的画面。

3.3 离散化的几何意义

FSQ 的 level 配置 $[8,8,8,5,5,5]$ 产生了约 $2^{16}$ 的码本大小。这不仅是量化精度的选择,更巧妙的是:FSQ 的 radix 表示保留了嵌入空间的几何结构。这意味着在离散空间中计算两个 token 的 L1 距离是有意义的——它反映了语义差异的连续度量。

这一性质在规划中的 cost function 里得到了充分利用:在潜空间中直接计算距离(跳过解码)可实现近 80 倍的规划加速

Part 4
世界模型:在紧凑潜空间中训练与规划

有了 CompACT Tokenizer,接下来的问题就是:如何在 8-16 个 token 的离散潜空间中训练世界模型?

4.1 潜空间世界模型形式化

世界模型在观测空间中的定义是:

$$f_\theta: (\mathbf{o}_t, \mathbf{a}_t) \mapsto p_\theta(\mathbf{o}_{t+1} | \mathbf{o}_t, \mathbf{a}_t)$$

将其映射到潜空间后,得到:

$$f_\phi: (\mathbf{z}_t, \mathbf{a}_t) \mapsto p_\phi(\mathbf{z}_{t+1} | \mathbf{z}_t, \mathbf{a}_t)$$

其中 $\mathbf{z}_t = \mathcal{E}_\text{compact}(\mathbf{o}_t)$。这里的 token 数量 $N$ 直接决定了计算成本——$N \le 16$ 意味着每步 rollout 的计算量仅为 784-token 基线的 $1/2400$

4.2 世界模型训练

训练目标同样采用掩码生成建模:

$$\mathcal{L}_\text{world} = -\mathbb{E}_{\mathbf{z}_t, \mathbf{a}_t, \mathbf{z}_{t+1}} \big[ \log p(\mathbf{z}_{t+1} | \mathbf{z}_t, \mathbf{a}_t, M(\mathbf{z}_{t+1})) \big]$$

World Model 训练在 RECON/SCAND/HuRoN(导航)或 RoboNet(操作)数据集上进行。RoboNet 微调阶段使用 100K 步、256 步预热、学习率 1e-4 的 cosine 调度 [见补充材料]。

论文探索了两种世界模型架构,分别适配不同的任务:

任务架构参数量特点
导航(RECON)自回归 DiT(CDiT)243M12 层, 768 维, 固定历史窗口 $\tau=4$
机器人操作(RoboNet)Block-Causal Transformer270M16 层, 1024 维, 并行预测 14 帧

History Masking:从 Diffusion Forcing 的启发

训练时随机 mask 历史窗口中的 token,借鉴了 Diffusion Forcing 的思想 #Chen et al., 2024。这使得模型在不同噪声水平下都能进行鲁棒的时序依赖建模。推理时使用 20% 的 mask 率,消融实验证明 history masking 将规划精度从 ATE 1.480 提升到 1.330。

4.3 决策时规划

训练完成后,世界模型通过 MPC with CEM(交叉熵方法)进行规划:

  1. 从当前观测 $\mathbf{o}_0$ 编码得到 $\mathbf{z}_0$
  2. 初始化候选动作序列 $\mathbf{a} = [\mathbf{a}_0, \ldots, \mathbf{a}_{H-1}]$
  3. 使用世界模型 rollout 预测未来潜状态序列 $\mathbf{z}_1, \ldots, \mathbf{z}_H$
  4. 计算 cost:$C(\mathbf{a}) = d(\hat{\mathbf{o}}_H, \mathbf{o}_\text{goal})$
  5. 优化 $\mathbf{a}^* = \arg\min_\mathbf{a} C(\mathbf{a})$
Cost Function 的选择
  • Pixel 空间:LPIPS 距离(需要解码,精度略高)
  • Latent 空间:FSQ 反量化后的 L1 距离(跳过解码,速度提升近 80×)

潜空间 cost function 虽精度小幅下降(ATE 1.330 vs 1.379),但它将单次规划延迟从 5.78s 降至 2.15s——相比 SD-VAE 的 178.78s 是 约 83 倍的加速,这是一个在实际部署中极具吸引力的权衡。

Part 5
实验验证:效率与精度的全面胜利

5.1 重建性能:16× 更少 token,接近的重建质量

在 ImageNet 验证集上的重建实验,展示了 CompACT 的压缩能力:

方法Token 数rFID ↓IS ↑
SD-VAE10240.64223.8
MaskGIT-VQGAN2561.83186.7
CompACT162.40209.0
CompACT83.21207.5
关键发现:16-token 的 CompACT 以 16× 更少的 token 数达到接近 MaskGIT-VQGAN 的重建质量(rFID 2.40 vs 1.83)。压缩至 8 token 时 Inception Score 几乎不变(207.5 vs 209.0),说明极端压缩主要影响的是重建细节而非语义内容。

5.2 导航规划:40 倍加速,精度可比

这是论文最核心的实验——在 RECON 基准上的目标条件视觉导航:

TokenizerToken 数ATE ↓RPE ↓延迟 ↓
SD-VAE7841.2620.354178.78 s
FlexTok641.4840.40016.68 s
FlexTok161.6250.44614.48 s
CompACT161.3300.3905.78 s
CompACT81.3730.4014.83 s

这个表格承载了论文的核心论点,值得深入解读:

  • CompACT 16-token vs SD-VAE 784-token:ATE 差距仅 5.4%(1.330 vs 1.262),但延迟从 178.78s 降至 5.78s——约 31 倍的加速
  • CompACT 8-token vs FlexTok 64-token:用 8 倍更少的 token 取得了更好的规划精度(ATE 1.373 vs 1.484),延迟仅为后者的 1/3
  • SCAND 数据集上的一致表现:ATE 1.391 vs 1.578(FlexTok-64),验证了方法的泛化能力

核心结论

极端压缩在精心设计的架构下不仅能保持规划性能,还可以超越使用更多 token 的方法。压缩不是妥协,而是一种精炼。

5.3 动作条件视频预测:3 倍更好的动作建模

在 RoboNet 机器人操作数据集上,论文验证了 CompACT token 的动作相关信息保留能力:

TokenizerToken 数APE ↓延迟
MaskGIT-VQGAN2560.33833.826 s
CompACT160.11220.740 s

APE(Action Prediction Error)是一个特别巧妙的指标:它使用逆动力学模型(IDM)来评估生成的视频帧中包含多少动作相关信息。如果模型生成的帧能准确反映驱动它的动作,说明 token 保留了规划必要的动态信息。

CompACT 的 APE 仅为 MaskGIT-VQGAN 的 1/3,同时生成速度提升 5.2 倍。这说明 CompACT 的模块化 token 更自然地捕捉了动态物体(末端执行器、操作目标)的状态变化——这是规划真正需要的信息。

5.4 消融实验:剥离每一层设计

编码器设计
变体rFID影响
完整模型(冻结 DINOv3)2.40基线
微调 DINOv35.22← 冻结特征提取器至关重要
从头训练 ViT7.28← 缺少预训练语义先验
移除生成式解码28.80← 生成式解码不可或缺
其他关键消融
  • History masking:ATE 从 1.480 改善到 1.330(提升 10.1%)
  • Latent space cost function:相比 pixel 空间,精度小幅下降但速度提升近 80×
  • 不同骨干网络:SigLIP-2、MAE、DINOv3 均可获得良好性能,方法不依赖特定预训练模型
Part 6
讨论与启发:压缩即抽象

6.1 在地图上的位置

方法Token 类型Token 数规划适用延迟
SD-VAE #Rombach et al., 2022连续784178.78 s
MaskGIT-VQGAN #Chang et al., 2022离散256⚠️3.83 s
FlexTok #Bachmann et al., 2025离散6416.68 s
CompACT #Kim et al., 2026离散8-164.83 s
CompACT 与其他 tokenizer 的效率-精度对比图
图 6:不同 Tokenizer 在规划效率与精度之间的帕累托前沿。CompACT 以最少 token 数达到最佳的效率-精度权衡(来源:#Kim et al., 2026

CompACT 位于 Token 压缩和规划效率的帕累托前沿上——它用最少的 token 换来了最好的规划精度和延迟组合。

6.2 局限性

  • 重建质量不足:极端压缩导致纹理细节"幻觉化",不适合需要像素级精度的任务
  • 任务范围有限:主要在导航(RECON)和简单操作(RoboNet)上验证,复杂机器人操作尚未测试
  • 固定 token 预算:8 和 16 是预定义值,没有根据场景复杂度动态调整的机制

6.3 个人启发

压缩即抽象:CompACT 告诉我们,信息瓶颈不只是工程上的无奈,更是一种设计原则。当你被迫丢弃 99% 的信息时,你才真正学会什么是重要的。
  1. 表征学习的核心在于任务适配:Tokenizer 的设计不应该仅以重建质量为目标,下游任务的目标函数应该反向传播到表征设计中去。CompACT 为"规划专用 tokenizer"树立了一个范本。
  2. 预训练模型的复用哲学:冻结 DINOv3 的使用揭示了预训练基础模型的双重价值——不仅提供特征,其已学习的语义抽象本身就是"规划友好"表征的强先验。这种"借用而非重新学习"的范式值得借鉴。
  3. 离散表征 + 并行解码的工程优势:CompACT 采用离散 token + 掩码生成建模,在速度上显著优于连续潜空间 + 扩散模型的方案。在实时性要求高的场景中,这是一个值得优先考虑的工程选择。
  4. 模块化 token 的涌现性质:注意力可视化显示每个 compact token 自然关注语义一致的物体/区域——这种"无监督的物体分解"是冻结 DINO 特征与交叉注意力结构的涌现性质,为场景理解提供了新的视角。

6.4 开放问题

读完后,我认为以下几个方向特别值得跟踪和探索:

  • 自适应 token 预算:能否根据场景复杂度动态调整 token 数量?简单走廊用 4 token,复杂场景用 16 token?
  • 3D-aware 的极端压缩:如果 tokenizer 能理解 3D 结构(而非 2D 像素),压缩效率和规划精度能否再上一个台阶?
  • 理论边界:从信息瓶颈角度,能否形式化证明"规划最优压缩率"的存在?8 是魔法数字还是可以更少?

参考来源

  • Kim, D. et al. (2026). Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model. CVPR 2026. arXiv:2603.05438
  • Bar, A. et al. (2025). Navigation World Models. ICLR 2025.
  • Chang, H. et al. (2022). MaskGIT: Masked Generative Image Transformer. CVPR 2022.
  • Rombach, R. et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022.
  • Bachmann, R. et al. (2025). FlexTok: Flexible Token Lengths for Image Generation. arXiv:2502.08897.
  • Simeoni, O. et al. (2025). DINOv3: Self-Supervised Vision Transformers at Scale. ICLR 2025.
  • Mentzer, F. et al. (2023). Finite Scalar Quantization: VQ-VAE Made Simple. ICLR 2023.
  • Peebles, W. et al. (2023). Scalable Diffusion Models with Transformers. ICCV 2023.
  • Ha, D. et al. (2018). World Models. NeurIPS 2018.
  • Chen, B. et al. (2024). Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion. NeurIPS 2024.
  • Esser, P. et al. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis. ICML 2024.