GRN: Generative Refinement Networks
扩散模型和自回归(AR)模型是当前视觉生成的两大主流范式,但两者都有根本性缺陷。扩散模型通过 MSE 优化、缺乏显式似然估计,只能用固定步数推理,对简单和复杂样本一视同仁地分配相同的计算量。自回归模型虽然天然有复杂度感知能力,但受困于两个问题:有损的离散 token 化导致信息损失,严格的因果预测机制导致误差累积且无法回溯修正。
ByteDance 提出的 GRN(Generative Refinement Networks)从根本上解决了这两类问题,提出三大创新:
🎯 HBQ:分层二值量化
灵感来自 Haar 小波的多分辨率分解。将连续特征映射到二叉树结构,每轮量化误差上限指数衰减($e_j < 1/2^j$),在不增加 latent 通道数的前提下,首次使离散 tokenizer 在相同维度下匹敌连续表示。
🎨 全局细化机制
突破 AR 因果性限制,允许模型像人类画家作画一样,在后续步骤中回溯修改先前生成的 token,从根本上解决误差累积问题。
📊 熵引导采样
用 token 分布的熵作为复杂度代理指标,动态决定每步需要细化的 token 数量,实现"简单样本少步、复杂样本多步"的自适应计算分配。
在 ImageNet 256×256 上,GRN 创下 rFID 0.56(重建)和 gFID 1.81(生成)双项新纪录,并成功扩展到 1024×1024 文本到图像和 480p 文本到视频生成。
视觉 Tokenizer 的三条路线
| 类别 | 代表方法 | 核心机制 | 主要局限 |
|---|---|---|---|
| 向量量化(VQ) | VQVAE、VQGAN | 可学习码本,离散索引 | 码本规模受限,重建质量有上限 |
| 无查找表量化(LFQ) | BSQ、FSQ、MAGVIT-v2 | 分解量化空间,无显式码本 | 大词表收敛慢,生成模型体积增大 |
| 分层二值量化(HBQ) | GRN | 二叉树结构,误差指数衰减 | 需多轮量化(M=4 最优) |
自回归生成的三种范式
| 范式 | 代表工作 | 生成方式 | 核心问题 |
|---|---|---|---|
| 逐 Token 预测 | VQGAN、LlamaGen | 光栅扫描顺序逐个预测 | 误差累积,无法修正 |
| 并行解码(MaskGIT) | MaskGIT、BERT-style | 迭代填充高置信 Token | 高置信 Token 确定后不可改 |
| 全局细化(GRN) | GRN | 回溯修正任意先前 Token | 需要显式细化机制 |
💡 核心洞察 1:HBQ 的思想来源是 Haar 小波
Haar 小波通过反复二分将信号分解为粗粒度(低频)和细粒度(高频)分量。HBQ 完全借鉴了这个结构:每一轮二值量化对应 Haar 的一层分解,第一轮决定符号(误差 < 1/2),第二轮细化(误差 < 1/4),第 j 轮误差上限 1/2^j,指数衰减。
💡 核心洞察 2:全局细化类比人类画家创作
传统 AR 模型的因果预测相当于从图像一角画到另一角、画完不能改。GRN 的全局细化相当于画家先打草稿再逐步精修,每一笔都可以回头修改。论文中的图 2 展示了这种"草稿 → 精修"的迭代过程。
💡 核心洞察 3:AR 模型天然有复杂度感知能力
扩散模型对所有样本分配相同步数,是因为它的优化目标是 MSE,没有似然信息。AR 模型天然建模分类分布,每个 token 的预测概率不同——这个概率分布的熵直接反映了当前区域的复杂度。GRN 显式利用了这一点。
HBQ 将 VAE 编码后的连续特征映射到二叉树桶结构,通过 M 轮二值量化实现近无损压缩。
算法流程
第一步:特征预处理。 在 VAE 编码器后添加 tanh 激活,将特征从无界实数范围映射到闭区间 (-1, +1)。这是必要的前处理,因为后续的二叉树量化结构要求特征在 [-1, 1] 范围内。
第二步:M 轮二值量化。 每个特征元素进行 M 轮量化,第 i 轮的量化中心定义为:
c_i = Σ (δ[q_j] / 2^j) for j = 1 to i-1
其中 δ 是符号函数:q_j=0 时输出 -1,q_j=1 时输出 +1。第 i 轮的量化标签由下式决定:
q_i = 0 if F ≤ c_i
q_i = 1 if F > c_i
第三步:误差分析。 第 j 轮的量化误差严格满足 e_j < 1/2^j。经过 M 轮后,总量化误差上界为 Σ(1/2^j) = 1 - 1/2^M,指数收敛到 1。
第四步:重建。 量化后的特征通过加权和重建:
F̂ = Σ δ[q_j] · 2^(-j) for j = 1 to M
直觉上理解:q_1 决定符号(正或负),q_2 决定在 [-1,1] 的哪个半区间,q_3 继续细分……每一轮精确度翻倍,但代价只是增加一个二进制位。
Tokenizer 重建质量对比
| Tokenizer | 类型 | rFID ↓ |
|---|---|---|
| HBQ (M=4) | 离散 | 0.56 |
| RAE | 连续 | 0.62 |
| VAR | 离散 | 0.85 |
| SD-VAE(Stable Diffusion) | 连续 | 0.87 |
| FSQ | 离散 | 0.78 |
HBQ 首次在相同 latent 维度下让离散 tokenizer 的重建质量超越连续 tokenizer。
因果性限制:AR 模型的枷锁
传统 AR 模型(包括逐 token 和逐尺度的变体)严格遵循因果预测:每个 token 的生成只依赖于先前生成的 token。一旦高置信 token 被确定,后续步骤即使发现前面的 token 是错误的,也无法修改——这是 AR 生成质量受限的根本原因之一。
MaskGIT 等掩码并行解码方法部分缓解了这个问题,但仍然存在"高置信 token 变为不可变"的问题。Infinity 尝试通过随机翻转 bit 来自校正,但假设错误率低于 30%,适用范围有限。
GRN 的解法:回溯修正
GRN 的全局细化机制不依赖错误率假设,而是让模型在每一步都能选择性地重新生成之前任意位置的 token。具体做法:
- 每轮迭代随机采样一个细化比例 l_t(如 30% 的 token 被选为待细化)
- 被选中的 token 用随机采样的 token 替换,构造部分随机、部分真实的输入 F_t
- 模型预测原始 ground-truth token
- 训练目标是标准交叉熵损失
推理时,模型迭代进行 refine,每步可以选择性修改之前的高置信 token。关键在于:细化是全局的,不受因果顺序约束。
消融实验验证
无全局细化(仅掩码方式)的基线 FID 高达 185.62。加入全局细化后,FID 降至 18.13——提升了约 10 倍。这个巨大飞跃说明:AR 模型的误差累积问题不是程度问题,而是结构问题,只有突破因果限制才能解决。
两个模型变体
| 变体 | 预测方式 | FID | 说明 |
|---|---|---|---|
| GRN_ind | 将 M 位二进制转为 INT 标量(K=2^M 类) | 2.64 | 标准分类 |
| GRN_bit | 直接预测二进制位(K=2) | 2.47 | 略优于 INT 方式 |
核心思想
不同图像的生成难度差异巨大。一张纯色背景上有一个圆圈,可能 20 步就能生成得很好;但一张有很多细节纹理的复杂场景,可能需要 80 步。扩散模型对所有样本分配相同的计算资源(步数),这是低效的。
GRN 的熵引导采样用 token 预测分布的熵作为复杂度代理:
H(Y_t) = (1/N) · (1/log₂K) · Σ_i Σ_j [ -p(y_{i,j} | F_{t-1}, cond) · log₂ p(y_{i,j} | F_{t-1}, cond) ]
高熵(不确定性大)→ 需要更多细化步骤。低熵(置信度高)→ 提前停止。
实验发现
| 指标 | 数值 |
|---|---|
| 使用 <50 步的样本比例 | 62.7% |
| 使用 <30 步的样本比例 | 约 200 张图 |
| 启用熵引导后的 FID 变化 | 3.6 → 3.8(轻微下降,换取 50%+ 计算节省) |
自适应计算的意义
传统优化追求固定计算预算下的最优质量。GRN 的熵引导采样代表了一种新范式:固定质量目标下的最小计算消耗。这类似于 LLM 的"思考时间"自适应——简单问题快速回答,复杂问题多轮推理。
ImageNet 256×256 Class-Conditional 生成
| 方法 | 参数量 | rFID ↓ | gFID ↓ | IS ↑ |
|---|---|---|---|---|
| GRN-G(Ours) | 2B | 0.56 | 1.81 | 299.0 |
| MAR-H | 943M | — | 1.98 | 283.5 |
| Infinity | 2B | — | 1.98 | 296.0 |
| VAR-d30 | 2B | — | 1.92 | 274.4 |
| DiT-XL/2 | 675M | — | 9.60 | 121.5 |
Text-to-Image(GenEval)
| 方法 | 规模 | GenEval Overall ↑ |
|---|---|---|
| GRN(Ours) | 2B | 0.76 |
| Infinity | — | 0.71 |
| SD3 Medium | — | 0.62 |
Text-to-Video(VBench)
| 方法 | 规模 | VBench Overall ↑ |
|---|---|---|
| GRN(Ours) | 2B | 82.99 |
| CogVideoX-5B | 5B | 81.61 |
| Emu3 | — | 80.96 |
| Nova | — | 80.12 |
GRN 以 2B 参数量在三个任务上均超越更大规模的模型,验证了技术路线的高效率。
Visual Tokenizer 训练
基于 Wan 2.1 的 3D 因果 VAE 架构,统一处理图像和视频。编码器后接 tanh 激活和 HBQ 量化层。训练损失:
L_total = λ_recons · L_recons + λ_LPIPS · L_LPIPS + λ_GAN · L_GAN
| 配置 | λ_recons | λ_LPIPS | λ_GAN |
|---|---|---|---|
| 图像专用 tokenizer | 1.0 | 1.0 | 0.3 |
| 图像+视频联合 tokenizer | 1.0 | 0.2 | 0.005 |
GRN 生成模型训练
训练数据:ImageNet(class-conditional)、公开图文对 + 高质量私有数据(text-to-image)。
| 任务 | 分辨率 | 训练设置 |
|---|---|---|
| C2I | 256×256 | 600 epochs,lr=2e-4 |
| T2I(预训练) | 256 | 150K iterations,batch=15400 |
| T2I(微调) | 1024 | 60K iterations,batch=2048,lr=2e-5 |
论文四大结论
- HBQ 首次使离散 tokenizer 在相同 latent 维度下匹敌连续 tokenizer,rFID 0.56 创下记录
- 全局细化机制从根本上解决了 AR 模型的误差累积问题,FID 从 185.62 降至 18.13
- 熵引导自适应采样实现了复杂度感知的计算分配,62.7% 样本可用 <50 步完成
- GRN 以 2B 参数量在 C2I、T2I、T2V 三个任务上均超越更大规模模型
💡 启示 1:离散表示的复兴
HBQ 证明离散 tokenizer 不必劣于连续表示。足够精细的量化策略(分层二叉 + 指数衰减误差)可以弥合离散与连续之间的质量差距。这为 AR 范式的持续竞争力提供了新依据。
💡 启示 2:自适应计算将成为标配
Diffusion 的固定步数 vs AR 的变长序列 vs GRN 的熵引导步数——未来的效率优化应从"减少总步数"转向"按复杂度动态分配步数"。这与 LLM 的思维链(Chain-of-Thought)自适应的方向一致。
💡 启示 3:全局细化机制可泛化
GRN 的"绘画式修正"不只适用于图像生成。其核心思想(突破因果限制的序列生成)可泛化到音频、3D、代码生成等序列决策任务。
💡 启示 4:误差累积是结构问题,不是程度问题
消融实验显示:无全局细化时 FID 高达 185.62,比很多未经训练的随机 baseline 还差。这说明 AR 的误差累积问题不是"减少几步"能解决的,必须从结构上突破因果限制才能真正解决。
核心贡献总结
| 贡献 | 内容 | 关键数据 |
|---|---|---|
| HBQ 量化 | 分层二值量化,误差指数衰减 | rFID 0.56 |
| 全局细化机制 | 突破因果限制,回溯修正任意 Token | FID 185.62→18.13 |
| 熵引导采样 | 复杂度感知的自适应步长 | 62.7% 样本 <50 步 |
| SOTA 结果 | C2I/T2I/T2V 三项任务 | 全面超越同等规模模型 |
| 项目 | 链接 |
|---|---|
| arXiv | https://arxiv.org/abs/2604.13030v1 |
| https://arxiv.org/pdf/2604.13030v1 | |
| GitHub | https://github.com/MGenAI/GRN |
| 机构 | ByteDance |
通讯作者:Zehuan Yuan(袁泽焕)— yuanzehuan@bytedance.com