DecQ
Representation Autoencoders (RAEs) 提出了一种简洁而激进的 tokenizer 设计:冻结预训练视觉基础模型(VFM,如 DINOv2、SigLIP2)作为 encoder,只训练一个 decoder 来完成像素重建 #RAE。这个设计的核心优势在于——VFM 的输出空间天然富含高层语义信息(物体类别、结构关系),在其上训练扩散模型可以显著加速收敛,生成质量也更好 #DINOv2。
但代价同样明显:冻结 VFM 的 patch tokens 严重缺乏低层细节。原因是 VFM 的预训练目标(对比学习、自蒸馏、多模态对齐)天然鼓励对颜色、纹理等高变信息的「不变性」,而这些信息对像素级重建恰恰至关重要 #DINOv2。结果就是,RAE 的重建质量很差——在 ImageNet 256×256 上 PSNR 仅 19.13 dB,意味着大量纹理丢失、色彩偏移。
为了验证这个 trade-off 的普遍性,论文在统一设置下做了一个系统的实证研究 #DecQ。所有变体使用相同的 DINOv2 encoder 和 DiT DH-S 生成模型,在 ImageNet 256×256 上训练 80 epochs:
| 范式 | VFM 处理方式 | rFID ↓ | gFID ↓ | Trade-off? |
|---|---|---|---|---|
| VFM-freeze (RAE baseline) | 完全冻结 | 0.69 | — | 重建差,生成尚可 |
| VFM-finetune | 微调 encoder | ~0.3(改善重建) | 显著劣化 | 有:重建改善但生成崩溃 |
| VFM-distill | 蒸馏损失保持语义 | ~0.4 | 劣化 | 有:v.s. RAE 重建改善但生成下降 |
| VFM-feat-concat (SVG) | 冻结 + 特征级 concat 注入细节 | ~0.65 | 劣化 | 有:重建略升但生成下降 |
| DecQ (Ours) | 冻结 + cross-attention queries | 0.47 | 改善(vs RAE) | 无 |
核心矛盾:所有已有的「注入重建信息」策略(微调、蒸馏、特征拼接)都会污染 VFM 的语义 latent space,导致下游生成质量下降。这就是论文开篇提出的 reconstruction–generation trade-off:重建越好,生成越差 #DecQ。
论文的关键洞察来自对 VFM 信息流的深入观察。
VFM 的中间层包含了被最终输出丢弃的低层信息。DINOv2 ViT-B/14 有 12 层 transformer block,信息在自注意力中逐层抽象。浅层(layer 0-3)保留了大量局部特征(边缘、颜色、纹理),中层(4-7)开始组合为局部结构,深层(8-11)抽象为全局语义。标准用法只取最后一层的输出,等于把所有低层信息都丢弃了。
类比来说:VFM encoder 是一位画家,他的正稿(patch tokens)只保留了轮廓和构图。但画家的草稿纸(中间层特征)上记录着颜色、纹理、局部细节。DecQ 让几个小助手(query tokens)翻阅这些草稿纸,记下被丢掉的信息,拼在正稿旁边。最终上色时(decoder),这些笔记帮助恢复细节。更关键的是,生成时扩散模型也学会了同时画出正稿和笔记。
这一 insight 被消融实验充分验证 #DecQ:
- 去掉所有 condensers → PSNR 跌回 19.13(等于 RAE baseline),证明收益完全来自 query 机制
- 仅 shallow condensers(layer 0,3) → 重建大幅改善但生成略有下降
- 仅 deep condensers(layer 6,9) → 生成改善但重建改善有限
- shallow + deep → 重建和生成同时受益,没有 trade-off
DecQ 的整体 pipeline 极其简洁。输入图像经过 frozen VFM encoder 后得到两条路径:
1. 主路径(语义流):VFM 最后一层的 patch tokens Z ∈ ℝ²⁵⁶×⁷⁶⁸,携带高层语义信息
2. 旁路(细节流):在 VFM 的中间层(layer 0, 3, 6, 9)插入 condenser 模块,从每层中间特征 P^(l) 中通过 cross-attention 提取细节,汇聚为 K=8 个 query tokens Q ∈ ℝ⁸×⁷⁶⁸
两条路径的 token 独立投影到 decoder 维度后拼接,形成 264 token 的统一序列,由 Transformer decoder(ViT-MAE XL, 28 layers)联合处理。在解码时,只有 patch tokens 参与最终的像素重建,query tokens 作为辅助 latent 仅在 self-attention 中为 decoder 提供补充信息。
---
Condenser 模块是 DecQ 的核心创新。每个 condenser 包含一个 cross-attention extractor + FFN:
| 组件 | 功能 | 设计细节 |
|---|---|---|
| Learnable Queries | 作为 cross-attention 的 Q | K=8,维度与 VFM 隐藏层一致(768d),随机初始化 |
| Key/Value | 来自 VFM 中间层特征 | 从对应 layer 的 hidden states 取出,与 VFM 共享维度 |
| Cross-Attention | query 从 VFM 中间层选择性提取信息 | 标准 multi-head attention,query 单向关注 patch features |
| FFN | 非线性投影 | 标准两层 MLP,提升 query token 的表征能力 |
| Gradient Isolation | 防止梯度回传到 VFM | VFM 中间层特征必须 .detach() 或 stop_gradient |
Condenser cross-attention 的核心公式(公式 2):
Query tokens 的逐层更新(公式 3-4):
M=4 个 condenser 分别插入 VFM 的 layer 0, 3, 6, 9(等间距选取),每层的输出汇聚到同一个 learnable query token 集合上。
---
Dual-stream Decoder 对 patch 和 query tokens 使用不同的位置编码:
- Patch tokens:固定 2D 正弦位置编码(保留空间结构)
- Query tokens:可学习位置编码(与空间位置无关)
拼接后的 264 token 序列通过 ViT-MAE XL decoder 的 28 层 self-attention。Query tokens 的信息通过 attention 间接传递给 patch tokens,协助重建。
---
生成阶段的适配同样简洁。在 flow matching 训练中,DiT 同时预测 264 个 token(256 patch + 8 query)。采样时联合去噪完整的 latent 序列,decoder 只取 patch tokens 重建图像。
其中 $z_t = (1-t)z + t\epsilon$,$z$ 包含 patch + query tokens 的完整 latent 序列 #DecQ。
扩散训练的总损失:
默认 $\lambda_{query} = 1$,因为 query 和 patch tokens 在 tokenizer 训练中被约束为具有相同的方差 #DecQ。
DecQ 的训练分为两个阶段:
Tokenizer 训练(第一阶段):
- Encoder:冻结 DINOv2 ViT-B/14 with Registers,输入 224×224,输出 256 个 patch tokens(丢弃 [CLS] 和 [REG] token)
- Decoder:ViT-MAE XL(28 layers, d=1152, d_ff=4096),仅训练 decoder + condensers + query tokens
- 优化器:AdamW, lr=2e-4 constant, batch_size=1024
- EMA decay:0.9999, gradient clip threshold: 1.0
- Noise injection:对 patch tokens 和 query tokens 使用相同的 noise shift 策略(与 RAE 一致),确保两者 latent 方差对齐 #RAE
- 硬件:8×NVIDIA H200 GPU
Tokenizer 训练完成后,将所有 ImageNet 图像编码为 264 token 的 latent 序列并缓存,进入第二阶段。
扩散模型训练(第二阶段):
- Backbone:LightningDiT(DiT DH-XL 主实验 / DiT DH-S 消融)
- 训练范式:连续时间 flow matching, t ∈ [0, 1]
- 时间步嵌入:替换为 Gaussian Fourier feature embeddings(非标准 sinusoidal)
- 优化器:AdamW, lr=2e-4 constant, batch_size=1024
- 训练 epochs:80(主实验),EMA decay: 0.9999
- 硬件:8×NVIDIA H200 GPU
- DDT Head:遵循 RAE 的 Decoupled Diffusion Transformer head 设计,当 DiT backbone 的隐藏维度与 DDT head 不同时,使用线性投影层映射 #RAE
采样设置:
- ODE solver:Euler, 50 steps(250 steps 可进一步改善)
- Guidance:AutoGuidance——使用弱扩散模型(DiT DH-S, 60-epoch checkpoint, guidance scale 1.6)引导强模型
- FID-50K 评估:每类 50 张,共 50,000 张,遵循 RAE 协议
为什么是 AutoGuidance 而不是 CFG?
AutoGuidance 使用一个「弱版本」的模型来引导「强版本」的模型,而不是 CFG 的「无条件引导有条件」。RAE 和 DecQ 的实验均证明 AutoGuidance 在高维 VFM latent space 中效果优于 CFG。这种策略需要维护两个模型(强 + 弱),但弱模型(DiT DH-S)训练 60 epoch 即可,额外成本可控 #AutoGuidance。
主实验结果(ImageNet 256×256, Table 1):
| Method | rFID ↓ | SSIM ↑ | PSNR ↑ | gFID ↓ (w/ guide) |
|---|---|---|---|---|
| SD-VAE | 0.61 | 0.74 | 26.90 | — |
| VA-VAE | 0.28 | 0.79 | 27.96 | — |
| SVG | 0.65 | 0.65 | 23.89 | 劣化 |
| RAE (baseline) | 0.69 | 0.49 | 19.13 | ~2.0+ |
| RPiAE | 0.50 | 0.53 | 21.30 | — |
| FAE | 0.68 | — | — | — |
| DecQ (DINOv2) | 0.47 | 0.63 | 22.76 | 1.05 |
| DecQ (SigLIP2) | 改善 vs RAE | 改善 | 改善 | 改善 |
生成收敛速度:DecQ 带来了 3.3× 的训练加速(相比 RAE baseline 达到同等 FID 所需的迭代步数)。这可以解释为:query tokens 提供的额外信息使 DiT 能更快掌握 latent 分布的结构。
---
消融实验的数值细节(Table 4-7 综合):
1. Condenser 层位置(Table 4):验证了 shallow vs deep 的分工假说
| 配置 | rFID ↓ | PSNR ↑ | gFID ↓ |
|---|---|---|---|
| RAE baseline(无 condenser) | 0.69 | 19.13 | — |
| Only shallow (layer 0,3) | 0.42 | 23.20 | 略降 vs baseline |
| Only deep (layer 6,9) | 0.67 | 19.49 | 改善 |
| Shallow + Deep (layer 0,3,6,9) | 0.47 | 22.76 | 改善 |
2. Query 数量 K 的 scaling(Table 5):
| K | rFID ↓ | PSNR ↑ | 生成 FLOPs 增量 |
|---|---|---|---|
| 1 | 0.63 | 19.95 | +0.80% |
| 4 | 0.51 | 22.17 | +1.61% |
| 8(默认) | 0.47 | 22.76 | +3.22% |
| 16 | 0.42 | 23.16 | +6.44% |
| 32 | 0.37 | 23.40 | +12.90% |
K=8 后收益急剧递减,K=32 时生成代价+12.9% 而重建收益非常有限。
3. Condenser 数量 M(Table 6):
| M | FLOPs 增量 | 参数增量 | 收益评估 |
|---|---|---|---|
| 4(默认) | +3.9% | +5.8% | 性价比最优 |
| 12 | +6.1% | +17.1% | 边际收益低 |
---
计算开销汇总(Table 8-9):
| 阶段 | Baseline | DecQ | 增量 |
|---|---|---|---|
| Tokenizer FLOPs | 128.9 G | 133.9 G | +3.9% |
| Tokenizer 活跃参数 | 501.9M | 531.2M | +5.8% |
| 生成 FLOPs(50 steps + decode) | 8,189.8 G | 8,453.2 G | +3.22% |
| 生成参数增量 | — | 3.37M | 几乎可忽略 |
---
定性分析亮点:
- 颜色恢复更准确:背景色、物体颜色的还原度显著高于 RAE
- 文本内容重建更清晰:RAE 对图像中的文字往往只保留「有文字」的语义印象,颜色和纹理丢失严重;DecQ 能恢复文字本身的颜色和纹理细节
- 细粒度纹理保留更好:在 DINOv2 和 SigLIP2 两种 VFM 上均观察到一致改善
Cluster 分析:对 query tokens 和 patch tokens 分别做聚类的结果显示 #DecQ:
- Patch tokens 按语义/物体类别聚类(狗 vs 猫 vs 建筑)——这是预期的
- Query tokens 按颜色/纹理聚类(红色物体、绿色草地、木纹表面)——证明 query tokens 确实学到了低层细节
SigLIP2 泛化性:DecQ 在 SigLIP2 上也取得了一致的重建改善,表明 query-based detail condensing 机制不依赖特定的 VFM 架构 #SigLIP2。
与竞品的技术对比:
| 维度 | SVG (feat concat) | VFM-finetune | DMVAE | DecQ |
|---|---|---|---|---|
| VFM 状态 | 冻结 | 微调 | 可训练对齐 | 冻结 |
| 信息注入方式 | 特征维度拼接 | 隐式学习 | DMD 分布匹配 | cross-attention queries |
| 低层信息源 | 额外 encoder 分支 | VFM 自身 | VFM 自身 | VFM 中间层 |
| 语义空间是否被污染 | 是(特征维度膨胀) | 是(参数被修改) | 否(对齐而非污染) | 否(完全 isolated) |
| 重建 PSNR | 23.89 | ~21+ | — | 22.76 |
| 生成质量 vs RAE | 劣化 | 劣化 | 持平/改善 | 改善 |
| 额外计算开销 | 大(额外 encoder) | 大(全模型 fine-tune) | 中 | 极小(+3.9% FLOPs) |
本质对比:所有已有方法都把「更多信息」注入到语义 latent 本身中,这会扰动 VFM 精心预训练的语义空间。DecQ 的不同在于——它注入的信息位于语义 latent 的旁边(旁路),而不是里面。这个「在旁边而非在里面」的设计思路可以推广到其他需要给 frozen 模型补信息的场景。
---
局限性(论文已承认 + 隐含)#DecQ:
1. 仅 ImageNet 256×256 验证,未验证 text-to-image 或 domain-specific 场景——在 T2I 下 query tokens 的有效性未知
2. 未研究 512×512+ 高分辨率——高分辨率下低层细节更重要,query 数和 condenser 位置的设计空间需要重新探索
3. VFM 泛化性有限(仅 DINOv2 + SigLIP2),更多 backbone(ViT-L/G, ConvNeXt)待验证
4. AutoGuidance 的额外模型依赖——最佳生成结果依赖弱引导模型,实际部署需维护两个模型
5. 仅 class-conditional 场景——与 AR 生成、text-to-image 等多种生成范式的兼容性待验证
可操作的启发:
- query-based detail condensing 是可复用的范式:在自己的 VFM-based tokenizer 项目中,只需要添加一个 condenser + 几个 query tokens,就能显著改善重建质量。实现复杂度很低,适合作为 baseline 的改进实验
- Shallow vs deep 的分工有架构指导意义:视觉 tokenizer 不需要所有层都做重建增强——浅层给重建、深层给生成,这个分工可以指导 condenser 的部署位置
- 与 REPA 的组合值得尝试:DecQ 改善 tokenizer latent 质量,REPA 加速扩散训练——两者互补,同时采用可能实现 1+1>2 的效果
- 计算开销极小是最大的工程亮点:+3.9% FLOPs 和 +5.8% 参数换来 PSNR +19% 和 FID 1.05,这个性价比在 visual tokenizer 设计中很难被忽视
为什么是 cross-attention 而不是直接 concat?
1. 信息选择性:cross-attention 允许 query 从中间层特征的不同空间位置选择性地提取信息,而不是机械地拼接所有 256 个 patch 的特征。这等价于一个可学习的「信息路由」——query 学会只看对自己有用的位置
2. 维度不变:concat 会膨胀特征维度(VFM 输出从 768d 变为 1536d),改变语义空间的几何结构。cross-attention 保持 patch tokens 的维度不变
3. 天然梯度隔离:cross-attention 中 patches 只做 K/V,梯度不通过 attention 回传到 VFM encoder。而 concat 需要额外的 stop_gradient 操作,容易遗漏
Shallow vs Deep 的分工机制解读:
这是一个符合 ViT 信息处理层级假说的发现:
| VFM 层范围 | 包含的信息 | 对重建的贡献 | 对生成的贡献 |
|---|---|---|---|
| Shallow (0,3) | 边缘、颜色、纹理等局部低层特征 | 大(直接帮助像素级重建) | 有限 |
| Deep (6,9) | 物体结构、空间关系等全局高层特征 | 有限 | 大(帮助分布学习) |
| 全部 (0,3,6,9) | 上述相结合 | 最优 | 最优 |
查询机制对生成质量的改善机制:
DiT 在生成时需要同时预测 patch 和 query tokens。这个额外的预测任务本质上充当了隐式正则化:
- DiT 必须学习两个 token 集合之间的条件依赖关系
- 这迫使 DiT 更精确地建模 latent 分布的局部结构
- 从信息论角度,query tokens 携带的细节信息降低了 patch tokens 预测的不确定性
与 Cross-Attention Adapter 的关系:
DecQ 的 condenser 本质上是一个 cross-attention adapter,与 IP-Adapter 的设计理念一致:
- IP-Adapter:reference image features 作为 K/V,注入图像风格
- DecQ:VFM 自身中间层特征作为 K/V,注入重建细节
- 共同范式:「在不修改主模型的前提下,用 cross-attention 注入额外信息」
1. VFM forward 需要同时产出中间层特征:标准 DINOv2 forward 只返回最后一层输出。需要在 transformer block 之间插入 hook(如 register_forward_hook),或修改 forward 返回 hidden_states 的 tuple。存储 4 层中间特征(256×768×4)会增加约 3MB 显存
2. Cross-attention 的梯度隔离:这是最容易遗漏的坑。patch tokens 中间特征必须调用 .detach() 或使用 PyTorch 的 stop_gradient/with torch.no_grad(),否则 VFM 参数会被更新
3. Noise shift 策略的适配:RAE 的 noise shift 策略针对 256 个 patch tokens 设计。DecQ 需要确保 query tokens 与 patch tokens 共享相同的 noise schedule 和方差。如果 noise schedule 不一致,会导致训练不稳定
4. Positional embedding 的差异设计:Patch tokens 使用固定 2D 正弦 PE(保留空间位置),query tokens 使用可学习 PE(与空间位置无关)。如果 query 也用 2D PE,可能导致训练不稳定——因为 query 没有对应的空间位置
5. Query 数量和 Condenser 位置的超参敏感性:K=8, M=4, positions=[0,3,6,9] 是在 DINOv2-B(12 层)上调优的结果。换用不同层数的 VFM(如 ViT-L 的 24 层)需要重新选择 condenser 位置,简单等间距选取不一定最优
6. 训练规模需求:Tokenizer batch_size=1024 + DiT batch_size=1024 需要 8×H200。对于学术实验室,可以通过 gradient accumulation 等价模拟,但训练时间会显著增加
7. 与 quantization 的兼容性:DecQ 产出 continuous query tokens。如果下游需要 discrete tokens(如 1D tokenizer 的 VQ/FSQ 量化步骤),需要额外的量化层——这可能导致信息损失
8. 高维 latent 的扩散效率:DecQ/RAE 在 VFM 原始维度(768d, 256 tokens)工作,远高于传统 VAE(4-16d)。虽然 DecQ 证明了高维 latent space 可以高效生成,但训练成本仍然显著高于传统 VAE 方案
参考来源
- Wang, T., Chen, Y., Song, W., Wu, Z., Li, M., & Wang, J. (2025). DecQ: Detail-Condensing Queries for Enhanced Reconstruction and Generation in Representation Autoencoders. arXiv preprint. arXiv:2605.22777
- Wang, Y. et al. (2025). Diffusion Transformers with Representation Autoencoders. arXiv:2510.11690
- Oquab, M. et al. (2023). DINOv2: Learning Robust Visual Features without Supervision. arXiv:2304.07193
- Yu, S. et al. (2025). Representation Alignment for Generation. ICLR 2025 Oral. OpenReview
- (2025). Distribution Matching VAE. arXiv:2512.07778
- SigLIP2: Multilingual Vision-Language Encoder. arXiv:2503.21744
- Karras, T. et al. (2025). Guiding a Diffusion Model with a Bad Version of Itself. NeurIPS 2025. arXiv:2501.13007
- SVG: Improving Reconstruction in VFM-based Latent Spaces. arXiv:2503.07138