ESC
输入关键词搜索文章
目录

GRN: Generative Refinement Networks

离散 Tokenizer 近无损压缩 × 全局修正 × 自适应步长生成
HBQ 量化误差指数衰减 · rFID 0.56 · gFID 1.81
0.56rFID 重建质量
1.81gFID 生成质量
62.7%样本 <50 步完成
2B参数量
引言

扩散模型和自回归(AR)模型是当前视觉生成的两大主流范式,但两者都有根本性缺陷。扩散模型通过 MSE 优化、缺乏显式似然估计,只能用固定步数推理,对简单和复杂样本一视同仁地分配相同的计算量。自回归模型虽然天然有复杂度感知能力,但受困于两个问题:有损的离散 token 化导致信息损失,严格的因果预测机制导致误差累积且无法回溯修正。

ByteDance 提出的 GRN(Generative Refinement Networks)从根本上解决了这两类问题,提出三大创新:

🎯 HBQ:分层二值量化

灵感来自 Haar 小波的多分辨率分解。将连续特征映射到二叉树结构,每轮量化误差上限指数衰减($e_j < 1/2^j$),在不增加 latent 通道数的前提下,首次使离散 tokenizer 在相同维度下匹敌连续表示。

🎨 全局细化机制

突破 AR 因果性限制,允许模型像人类画家作画一样,在后续步骤中回溯修改先前生成的 token,从根本上解决误差累积问题。

📊 熵引导采样

用 token 分布的熵作为复杂度代理指标,动态决定每步需要细化的 token 数量,实现"简单样本少步、复杂样本多步"的自适应计算分配。

在 ImageNet 256×256 上,GRN 创下 rFID 0.56(重建)和 gFID 1.81(生成)双项新纪录,并成功扩展到 1024×1024 文本到图像和 480p 文本到视频生成。

GRN 粗到细生成过程
图 1:GRN 的粗到细生成过程。从左到右:初始噪声逐步细化,最终得到高质量图像。右侧展示了 4 种不同生成阶段的结果对比。
相关工作

视觉 Tokenizer 的三条路线

类别代表方法核心机制主要局限
向量量化(VQ)VQVAE、VQGAN可学习码本,离散索引码本规模受限,重建质量有上限
无查找表量化(LFQ)BSQ、FSQ、MAGVIT-v2分解量化空间,无显式码本大词表收敛慢,生成模型体积增大
分层二值量化(HBQ)GRN二叉树结构,误差指数衰减需多轮量化(M=4 最优)

自回归生成的三种范式

范式代表工作生成方式核心问题
逐 Token 预测VQGAN、LlamaGen光栅扫描顺序逐个预测误差累积,无法修正
并行解码(MaskGIT)MaskGIT、BERT-style迭代填充高置信 Token高置信 Token 确定后不可改
全局细化(GRN)GRN回溯修正任意先前 Token需要显式细化机制
核心问题与洞察

💡 核心洞察 1:HBQ 的思想来源是 Haar 小波

Haar 小波通过反复二分将信号分解为粗粒度(低频)和细粒度(高频)分量。HBQ 完全借鉴了这个结构:每一轮二值量化对应 Haar 的一层分解,第一轮决定符号(误差 < 1/2),第二轮细化(误差 < 1/4),第 j 轮误差上限 1/2^j,指数衰减。

💡 核心洞察 2:全局细化类比人类画家创作

传统 AR 模型的因果预测相当于从图像一角画到另一角、画完不能改。GRN 的全局细化相当于画家先打草稿再逐步精修,每一笔都可以回头修改。论文中的图 2 展示了这种"草稿 → 精修"的迭代过程。

💡 核心洞察 3:AR 模型天然有复杂度感知能力

扩散模型对所有样本分配相同步数,是因为它的优化目标是 MSE,没有似然信息。AR 模型天然建模分类分布,每个 token 的预测概率不同——这个概率分布的熵直接反映了当前区域的复杂度。GRN 显式利用了这一点。

HBQ:分层二值量化

HBQ 将 VAE 编码后的连续特征映射到二叉树桶结构,通过 M 轮二值量化实现近无损压缩。

算法流程

第一步:特征预处理。 在 VAE 编码器后添加 tanh 激活,将特征从无界实数范围映射到闭区间 (-1, +1)。这是必要的前处理,因为后续的二叉树量化结构要求特征在 [-1, 1] 范围内。

第二步:M 轮二值量化。 每个特征元素进行 M 轮量化,第 i 轮的量化中心定义为:

c_i = Σ (δ[q_j] / 2^j)  for j = 1 to i-1

其中 δ 是符号函数:q_j=0 时输出 -1,q_j=1 时输出 +1。第 i 轮的量化标签由下式决定:

q_i = 0  if F ≤ c_i
q_i = 1  if F > c_i

第三步:误差分析。 第 j 轮的量化误差严格满足 e_j < 1/2^j。经过 M 轮后,总量化误差上界为 Σ(1/2^j) = 1 - 1/2^M,指数收敛到 1。

第四步:重建。 量化后的特征通过加权和重建:

F̂ = Σ δ[q_j] · 2^(-j)  for j = 1 to M

直觉上理解:q_1 决定符号(正或负),q_2 决定在 [-1,1] 的哪个半区间,q_3 继续细分……每一轮精确度翻倍,但代价只是增加一个二进制位。

HBQ 量化轮数消融实验
图 2:HBQ 量化轮数 M 对 rFVD(重建视频质量)、LPIPS、SSIM、PSNR 的影响。可以看到 M=4 时已接近连续表示(w/o quant)的性能,继续增加 M 到 6 收益有限。

Tokenizer 重建质量对比

Tokenizer类型rFID ↓
HBQ (M=4)离散0.56
RAE连续0.62
VAR离散0.85
SD-VAE(Stable Diffusion)连续0.87
FSQ离散0.78

HBQ 首次在相同 latent 维度下让离散 tokenizer 的重建质量超越连续 tokenizer。

Tokenizer 重建质量对比
图 3:不同 Tokenizer 的可视化重建对比。可以观察到 HBQ(最后一列)与连续表示的视觉质量差距已经非常小。
全局细化机制

因果性限制:AR 模型的枷锁

传统 AR 模型(包括逐 token 和逐尺度的变体)严格遵循因果预测:每个 token 的生成只依赖于先前生成的 token。一旦高置信 token 被确定,后续步骤即使发现前面的 token 是错误的,也无法修改——这是 AR 生成质量受限的根本原因之一。

MaskGIT 等掩码并行解码方法部分缓解了这个问题,但仍然存在"高置信 token 变为不可变"的问题。Infinity 尝试通过随机翻转 bit 来自校正,但假设错误率低于 30%,适用范围有限。

GRN 的解法:回溯修正

GRN 的全局细化机制不依赖错误率假设,而是让模型在每一步都能选择性地重新生成之前任意位置的 token。具体做法:

  1. 每轮迭代随机采样一个细化比例 l_t(如 30% 的 token 被选为待细化)
  2. 被选中的 token 用随机采样的 token 替换,构造部分随机、部分真实的输入 F_t
  3. 模型预测原始 ground-truth token
  4. 训练目标是标准交叉熵损失

推理时,模型迭代进行 refine,每步可以选择性修改之前的高置信 token。关键在于:细化是全局的,不受因果顺序约束。

消融实验验证

无全局细化(仅掩码方式)的基线 FID 高达 185.62。加入全局细化后,FID 降至 18.13——提升了约 10 倍。这个巨大飞跃说明:AR 模型的误差累积问题不是程度问题,而是结构问题,只有突破因果限制才能解决。

两个模型变体

变体预测方式FID说明
GRN_ind将 M 位二进制转为 INT 标量(K=2^M 类)2.64标准分类
GRN_bit直接预测二进制位(K=2)2.47略优于 INT 方式
熵引导采样

核心思想

不同图像的生成难度差异巨大。一张纯色背景上有一个圆圈,可能 20 步就能生成得很好;但一张有很多细节纹理的复杂场景,可能需要 80 步。扩散模型对所有样本分配相同的计算资源(步数),这是低效的。

GRN 的熵引导采样用 token 预测分布的熵作为复杂度代理:

H(Y_t) = (1/N) · (1/log₂K) · Σ_i Σ_j [ -p(y_{i,j} | F_{t-1}, cond) · log₂ p(y_{i,j} | F_{t-1}, cond) ]

高熵(不确定性大)→ 需要更多细化步骤。低熵(置信度高)→ 提前停止。

熵引导采样步数分布
图 4:熵引导采样的步数分布直方图。横轴是生成所用步数,纵轴是样本数量(对数刻度)。可以看到分布呈现双峰:大量简单样本集中在 20-40 步区域,少量复杂样本分布在更长的步数区域。

实验发现

指标数值
使用 <50 步的样本比例62.7%
使用 <30 步的样本比例约 200 张图
启用熵引导后的 FID 变化3.6 → 3.8(轻微下降,换取 50%+ 计算节省)

自适应计算的意义

传统优化追求固定计算预算下的最优质量。GRN 的熵引导采样代表了一种新范式:固定质量目标下的最小计算消耗。这类似于 LLM 的"思考时间"自适应——简单问题快速回答,复杂问题多轮推理。

实验结果

ImageNet 256×256 Class-Conditional 生成

方法参数量rFID ↓gFID ↓IS ↑
GRN-G(Ours)2B0.561.81299.0
MAR-H943M1.98283.5
Infinity2B1.98296.0
VAR-d302B1.92274.4
DiT-XL/2675M9.60121.5

Text-to-Image(GenEval)

方法规模GenEval Overall ↑
GRN(Ours)2B0.76
Infinity0.71
SD3 Medium0.62

Text-to-Video(VBench)

方法规模VBench Overall ↑
GRN(Ours)2B82.99
CogVideoX-5B5B81.61
Emu380.96
Nova80.12

GRN 以 2B 参数量在三个任务上均超越更大规模的模型,验证了技术路线的高效率。

方法定性对比
图 5:GRN 与其他方法在相同条件下的定性生成对比。可观察到 GRN 在纹理细节、文本渲染、空间结构等方面的综合优势。
更多方法对比
图 6:更多生成样本的定性对比,涵盖不同场景和复杂度。
超参数敏感性分析
图 7:Temperature、CFG Scale、CFG Start 三个超参数对 FID 的影响。可以观察到最优 Temperature≈1.2,CFG Scale≈2.4,CFG Start≈0.44。
训练细节

Visual Tokenizer 训练

基于 Wan 2.1 的 3D 因果 VAE 架构,统一处理图像和视频。编码器后接 tanh 激活和 HBQ 量化层。训练损失:

L_total = λ_recons · L_recons + λ_LPIPS · L_LPIPS + λ_GAN · L_GAN
配置λ_reconsλ_LPIPSλ_GAN
图像专用 tokenizer1.01.00.3
图像+视频联合 tokenizer1.00.20.005

GRN 生成模型训练

训练数据:ImageNet(class-conditional)、公开图文对 + 高质量私有数据(text-to-image)。

任务分辨率训练设置
C2I256×256600 epochs,lr=2e-4
T2I(预训练)256150K iterations,batch=15400
T2I(微调)102460K iterations,batch=2048,lr=2e-5
结论与启示

论文四大结论

  1. HBQ 首次使离散 tokenizer 在相同 latent 维度下匹敌连续 tokenizer,rFID 0.56 创下记录
  2. 全局细化机制从根本上解决了 AR 模型的误差累积问题,FID 从 185.62 降至 18.13
  3. 熵引导自适应采样实现了复杂度感知的计算分配,62.7% 样本可用 <50 步完成
  4. GRN 以 2B 参数量在 C2I、T2I、T2V 三个任务上均超越更大规模模型

💡 启示 1:离散表示的复兴

HBQ 证明离散 tokenizer 不必劣于连续表示。足够精细的量化策略(分层二叉 + 指数衰减误差)可以弥合离散与连续之间的质量差距。这为 AR 范式的持续竞争力提供了新依据。

💡 启示 2:自适应计算将成为标配

Diffusion 的固定步数 vs AR 的变长序列 vs GRN 的熵引导步数——未来的效率优化应从"减少总步数"转向"按复杂度动态分配步数"。这与 LLM 的思维链(Chain-of-Thought)自适应的方向一致。

💡 启示 3:全局细化机制可泛化

GRN 的"绘画式修正"不只适用于图像生成。其核心思想(突破因果限制的序列生成)可泛化到音频、3D、代码生成等序列决策任务。

💡 启示 4:误差累积是结构问题,不是程度问题

消融实验显示:无全局细化时 FID 高达 185.62,比很多未经训练的随机 baseline 还差。这说明 AR 的误差累积问题不是"减少几步"能解决的,必须从结构上突破因果限制才能真正解决。

核心贡献总结

贡献内容关键数据
HBQ 量化分层二值量化,误差指数衰减rFID 0.56
全局细化机制突破因果限制,回溯修正任意 TokenFID 185.62→18.13
熵引导采样复杂度感知的自适应步长62.7% 样本 <50 步
SOTA 结果C2I/T2I/T2V 三项任务全面超越同等规模模型
参考信息
项目链接
arXivhttps://arxiv.org/abs/2604.13030v1
PDFhttps://arxiv.org/pdf/2604.13030v1
GitHubhttps://github.com/MGenAI/GRN
机构ByteDance

通讯作者:Zehuan Yuan(袁泽焕)— yuanzehuan@bytedance.com