GRN：生成式细化网络——离散 Tokenizer 近无损 × 全局修正 × 自适应步长生成

2026/04/23 00:00:00·2026/05/19 10:23:00

论文解读 visual-tokenizer autoregressive generative-model HBQ 离散量化

引言

扩散模型和自回归（AR）模型是当前视觉生成的两大主流范式，但两者都有根本性缺陷。扩散模型通过 MSE 优化、缺乏显式似然估计，只能用固定步数推理，对简单和复杂样本一视同仁地分配相同的计算量。自回归模型虽然天然有复杂度感知能力，但受困于两个问题：有损的离散 token 化导致信息损失，严格的因果预测机制导致误差累积且无法回溯修正。

ByteDance 提出的 GRN（Generative Refinement Networks）从根本上解决了这两类问题，提出三大创新：

🎯 HBQ：分层二值量化

灵感来自 Haar 小波的多分辨率分解。将连续特征映射到二叉树结构，每轮量化误差上限指数衰减（ $$e_j < 1/2^j$$ ），在不增加 latent 通道数的前提下，首次使离散 tokenizer 在相同维度下匹敌连续表示。

🎨 全局细化机制

突破 AR 因果性限制，允许模型像人类画家作画一样，在后续步骤中回溯修改先前生成的 token，从根本上解决误差累积问题。

📊 熵引导采样

用 token 分布的熵作为复杂度代理指标，动态决定每步需要细化的 token 数量，实现"简单样本少步、复杂样本多步"的自适应计算分配。

在 ImageNet 256×256 上，GRN 创下 rFID 0.56（重建）和 gFID 1.81（生成）双项新纪录，并成功扩展到 1024×1024 文本到图像和 480p 文本到视频生成。

图 1：GRN 的粗到细生成过程。从左到右：初始噪声逐步细化，最终得到高质量图像。右侧展示了 4 种不同生成阶段的结果对比。

视觉 Tokenizer 的三条路线

类别	代表方法	核心机制	主要局限
向量量化（VQ）	VQVAE、VQGAN	可学习码本，离散索引	码本规模受限，重建质量有上限
无查找表量化（LFQ）	BSQ、FSQ、MAGVIT-v2	分解量化空间，无显式码本	大词表收敛慢，生成模型体积增大
分层二值量化（HBQ）	GRN	二叉树结构，误差指数衰减	需多轮量化（M=4 最优）

自回归生成的三种范式

范式	代表工作	生成方式	核心问题
逐 Token 预测	VQGAN、LlamaGen	光栅扫描顺序逐个预测	误差累积，无法修正
并行解码（MaskGIT）	MaskGIT、BERT-style	迭代填充高置信 Token	高置信 Token 确定后不可改
全局细化（GRN）	GRN	回溯修正任意先前 Token	需要显式细化机制

核心问题与洞察

💡 核心洞察 1：HBQ 的思想来源是 Haar 小波

Haar 小波通过反复二分将信号分解为粗粒度（低频）和细粒度（高频）分量。HBQ 完全借鉴了这个结构：每一轮二值量化对应 Haar 的一层分解，第一轮决定符号（误差 < 1/2），第二轮细化（误差 < 1/4），第 j 轮误差上限 1/2^j，指数衰减。

💡 核心洞察 2：全局细化类比人类画家创作

传统 AR 模型的因果预测相当于从图像一角画到另一角、画完不能改。GRN 的全局细化相当于画家先打草稿再逐步精修，每一笔都可以回头修改。论文中的图 2 展示了这种"草稿 → 精修"的迭代过程。

💡 核心洞察 3：AR 模型天然有复杂度感知能力

扩散模型对所有样本分配相同步数，是因为它的优化目标是 MSE，没有似然信息。AR 模型天然建模分类分布，每个 token 的预测概率不同——这个概率分布的熵直接反映了当前区域的复杂度。GRN 显式利用了这一点。

HBQ：分层二值量化

HBQ 将 VAE 编码后的连续特征映射到二叉树桶结构，通过 M 轮二值量化实现近无损压缩。

算法流程

第一步：特征预处理。 在 VAE 编码器后添加 tanh 激活，将特征从无界实数范围映射到闭区间 (-1, +1)。这是必要的前处理，因为后续的二叉树量化结构要求特征在 [-1, 1] 范围内。

第二步：M 轮二值量化。 每个特征元素进行 M 轮量化，第 i 轮的量化中心定义为：

c_i = Σ (δ[q_j] / 2^j)  for j = 1 to i-1

其中 δ 是符号函数：q_j=0 时输出 -1，q_j=1 时输出 +1。第 i 轮的量化标签由下式决定：

q_i = 0  if F ≤ c_i
q_i = 1  if F > c_i

第三步：误差分析。 第 j 轮的量化误差严格满足 e_j < 1/2^j。经过 M 轮后，总量化误差上界为 Σ(1/2^j) = 1 - 1/2^M，指数收敛到 1。

第四步：重建。 量化后的特征通过加权和重建：

F̂ = Σ δ[q_j] · 2^(-j)  for j = 1 to M

直觉上理解：q_1 决定符号（正或负），q_2 决定在 [-1,1] 的哪个半区间，q_3 继续细分……每一轮精确度翻倍，但代价只是增加一个二进制位。

图 2：HBQ 量化轮数 M 对 rFVD（重建视频质量）、LPIPS、SSIM、PSNR 的影响。可以看到 M=4 时已接近连续表示（w/o quant）的性能，继续增加 M 到 6 收益有限。

Tokenizer 重建质量对比

Tokenizer	类型	rFID ↓
HBQ (M=4)	离散	0.56
RAE	连续	0.62
VAR	离散	0.85
SD-VAE（Stable Diffusion）	连续	0.87
FSQ	离散	0.78

HBQ 首次在相同 latent 维度下让离散 tokenizer 的重建质量超越连续 tokenizer。

图 3：不同 Tokenizer 的可视化重建对比。可以观察到 HBQ（最后一列）与连续表示的视觉质量差距已经非常小。

全局细化机制

因果性限制：AR 模型的枷锁

传统 AR 模型（包括逐 token 和逐尺度的变体）严格遵循因果预测：每个 token 的生成只依赖于先前生成的 token。一旦高置信 token 被确定，后续步骤即使发现前面的 token 是错误的，也无法修改——这是 AR 生成质量受限的根本原因之一。

MaskGIT 等掩码并行解码方法部分缓解了这个问题，但仍然存在"高置信 token 变为不可变"的问题。Infinity 尝试通过随机翻转 bit 来自校正，但假设错误率低于 30%，适用范围有限。

GRN 的解法：回溯修正

GRN 的全局细化机制不依赖错误率假设，而是让模型在每一步都能选择性地重新生成之前任意位置的 token。具体做法：

每轮迭代随机采样一个细化比例 l_t（如 30% 的 token 被选为待细化）
被选中的 token 用随机采样的 token 替换，构造部分随机、部分真实的输入 F_t
模型预测原始 ground-truth token
训练目标是标准交叉熵损失

推理时，模型迭代进行 refine，每步可以选择性修改之前的高置信 token。关键在于：细化是全局的，不受因果顺序约束。

消融实验验证

无全局细化（仅掩码方式）的基线 FID 高达 185.62。加入全局细化后，FID 降至 18.13——提升了约 10 倍。这个巨大飞跃说明：AR 模型的误差累积问题不是程度问题，而是结构问题，只有突破因果限制才能解决。

两个模型变体

变体	预测方式	FID	说明
GRN_ind	将 M 位二进制转为 INT 标量（K=2^M 类）	2.64	标准分类
GRN_bit	直接预测二进制位（K=2）	2.47	略优于 INT 方式

熵引导采样

核心思想

不同图像的生成难度差异巨大。一张纯色背景上有一个圆圈，可能 20 步就能生成得很好；但一张有很多细节纹理的复杂场景，可能需要 80 步。扩散模型对所有样本分配相同的计算资源（步数），这是低效的。

GRN 的熵引导采样用 token 预测分布的熵作为复杂度代理：

H(Y_t) = (1/N) · (1/log₂K) · Σ_i Σ_j [ -p(y_{i,j} | F_{t-1}, cond) · log₂ p(y_{i,j} | F_{t-1}, cond) ]

高熵（不确定性大）→ 需要更多细化步骤。低熵（置信度高）→ 提前停止。

图 4：熵引导采样的步数分布直方图。横轴是生成所用步数，纵轴是样本数量（对数刻度）。可以看到分布呈现双峰：大量简单样本集中在 20-40 步区域，少量复杂样本分布在更长的步数区域。

实验发现

指标	数值
使用 <50 步的样本比例	62.7%
使用 <30 步的样本比例	约 200 张图
启用熵引导后的 FID 变化	3.6 → 3.8（轻微下降，换取 50%+ 计算节省）

自适应计算的意义

传统优化追求固定计算预算下的最优质量。GRN 的熵引导采样代表了一种新范式：固定质量目标下的最小计算消耗。这类似于 LLM 的"思考时间"自适应——简单问题快速回答，复杂问题多轮推理。

实验结果

ImageNet 256×256 Class-Conditional 生成

方法	参数量	rFID ↓	gFID ↓	IS ↑
GRN-G（Ours）	2B	0.56	1.81	299.0
MAR-H	943M	—	1.98	283.5
Infinity	2B	—	1.98	296.0
VAR-d30	2B	—	1.92	274.4
DiT-XL/2	675M	—	9.60	121.5

Text-to-Image（GenEval）

方法	规模	GenEval Overall ↑
GRN（Ours）	2B	0.76
Infinity	—	0.71
SD3 Medium	—	0.62

Text-to-Video（VBench）

方法	规模	VBench Overall ↑
GRN（Ours）	2B	82.99
CogVideoX-5B	5B	81.61
Emu3	—	80.96
Nova	—	80.12

GRN 以 2B 参数量在三个任务上均超越更大规模的模型，验证了技术路线的高效率。

图 5：GRN 与其他方法在相同条件下的定性生成对比。可观察到 GRN 在纹理细节、文本渲染、空间结构等方面的综合优势。

图 6：更多生成样本的定性对比，涵盖不同场景和复杂度。

图 7：Temperature、CFG Scale、CFG Start 三个超参数对 FID 的影响。可以观察到最优 Temperature≈1.2，CFG Scale≈2.4，CFG Start≈0.44。

训练细节

Visual Tokenizer 训练

基于 Wan 2.1 的 3D 因果 VAE 架构，统一处理图像和视频。编码器后接 tanh 激活和 HBQ 量化层。训练损失：

L_total = λ_recons · L_recons + λ_LPIPS · L_LPIPS + λ_GAN · L_GAN

配置	λ_recons	λ_LPIPS	λ_GAN
图像专用 tokenizer	1.0	1.0	0.3
图像+视频联合 tokenizer	1.0	0.2	0.005

GRN 生成模型训练

训练数据：ImageNet（class-conditional）、公开图文对 + 高质量私有数据（text-to-image）。

任务	分辨率	训练设置
C2I	256×256	600 epochs，lr=2e-4
T2I（预训练）	256	150K iterations，batch=15400
T2I（微调）	1024	60K iterations，batch=2048，lr=2e-5

结论与启示

论文四大结论

HBQ 首次使离散 tokenizer 在相同 latent 维度下匹敌连续 tokenizer，rFID 0.56 创下记录
全局细化机制从根本上解决了 AR 模型的误差累积问题，FID 从 185.62 降至 18.13
熵引导自适应采样实现了复杂度感知的计算分配，62.7% 样本可用 <50 步完成
GRN 以 2B 参数量在 C2I、T2I、T2V 三个任务上均超越更大规模模型

💡 启示 1：离散表示的复兴

HBQ 证明离散 tokenizer 不必劣于连续表示。足够精细的量化策略（分层二叉 + 指数衰减误差）可以弥合离散与连续之间的质量差距。这为 AR 范式的持续竞争力提供了新依据。

💡 启示 2：自适应计算将成为标配

Diffusion 的固定步数 vs AR 的变长序列 vs GRN 的熵引导步数——未来的效率优化应从"减少总步数"转向"按复杂度动态分配步数"。这与 LLM 的思维链（Chain-of-Thought）自适应的方向一致。

💡 启示 3：全局细化机制可泛化

GRN 的"绘画式修正"不只适用于图像生成。其核心思想（突破因果限制的序列生成）可泛化到音频、3D、代码生成等序列决策任务。

💡 启示 4：误差累积是结构问题，不是程度问题

消融实验显示：无全局细化时 FID 高达 185.62，比很多未经训练的随机 baseline 还差。这说明 AR 的误差累积问题不是"减少几步"能解决的，必须从结构上突破因果限制才能真正解决。

核心贡献总结

贡献	内容	关键数据
HBQ 量化	分层二值量化，误差指数衰减	rFID 0.56
全局细化机制	突破因果限制，回溯修正任意 Token	FID 185.62→18.13
熵引导采样	复杂度感知的自适应步长	62.7% 样本 <50 步
SOTA 结果	C2I/T2I/T2V 三项任务	全面超越同等规模模型

参考信息

项目	链接
arXiv	https://arxiv.org/abs/2604.13030v1
PDF	https://arxiv.org/pdf/2604.13030v1
GitHub	https://github.com/MGenAI/GRN
机构	ByteDance

通讯作者：Zehuan Yuan（袁泽焕）— yuanzehuan@bytedance.com