GRN
参考链接
- arXiv 页面
- https://arxiv.org/abs/2604.13030v1
- PDF 下载
- https://arxiv.org/pdf/2604.13030v1
- 代码仓库
- https://github.com/MGenAI/GRN
- 机构
- ByteDance
作者信息
| 作者 | 邮箱 |
|---|---|
| Jian Han | hanjian.thu123@bytedance.com |
| Jinlai Liu | liujinlai.licio@bytedance.com |
| Jiahuan Wang | wangjiahuan.123@bytedance.com |
| Bingyue Peng | bingyue.peng@bytedance.com |
| Zehuan Yuan (通讯作者) | yuanzehuan@bytedance.com |
GRN(Generative Refinement Networks)是 ByteDance 提出的下一代视觉合成框架,旨在解决当前两大主流范式的核心缺陷:
- 扩散模型虽然主导视觉生成,但通过 MSE 优化、缺乏显式似然估计,只能使用固定步数推理,无法根据样本复杂度自适应分配计算资源。
- 自回归(AR)模型虽然天然具有复杂度感知能力(表现为可变似然),但受限于有损离散 token 化和严格因果预测机制导致的误差累积,且无法回溯修正先前错误。
GRN 提出三大核心创新:
- HBQ(Hierarchical Binary Quantization):分层二值量化,量化误差以指数衰减((e_j < 1/2^j)),首次使离散 tokenizer 在相同 latent 维度下匹敌连续 tokenizer,ImageNet 256×256 上 rFID 达 0.56。
- 全局细化机制:突破 AR 模型的因果性限制,允许模型像人类画家一样在后续步骤中回溯修正先前生成的 token,从根本上解决误差累积问题。
- 熵引导采样:以 token 分布的熵作为复杂度指标,动态分配生成步数,实现“简单样本少步、复杂样本多步”的自适应计算分配。
实验结果:ImageNet 256×256 上 rFID 0.56(重建)和 gFID 1.81(生成)均创下新纪录,并成功扩展到 1024×1024 文本到图像和 480p 文本到视频生成。
来源:Abstract, §1 Introduction
视觉 Tokenizer (Visual Tokenizers)
- 视觉 Tokenizer
- 将高维连续视觉数据压缩为离散 Token 表示的编码器-解码器架构,是生成模型的基础组件。
现有方法主要分为两类:
- 向量量化方法
- VQVAE、VQGAN 等通过可学习码本将连续特征映射为离散索引,但受限于码本规模,重建质量有限。
- 无查找表方法
- BSQ、FSQ 等通过分解量化空间避免显式码本,支持更大词汇表,但仍与连续表示存在性能差距。
- 近期趋势
- Infinity、BitDance 等工作通过大幅扩展词汇表规模超越了连续 VAE,但代价是收敛速度变慢和生成模型体积增大。GRN 提出的 HBQ 通过分层二值量化,在不增加通道数的情况下实现指数级误差衰减,首次使离散 Tokenizer 在相同潜在维度下与连续 Tokenizer 持平。
自回归视觉生成模型 (Autoregressive Models for Visual Synthesis)
- 自回归视觉生成
- 受大语言模型启发,将视觉生成建模为序列预测任务的方法范式。
代表性工作:
- 逐 Token 预测
- VQGAN、LlamaGen、VideoPoet 等按光栅扫描顺序逐个预测视觉 Token。
- 并行解码
- MaskGIT 通过迭代填充高置信度 Token 加速生成,但一旦确定无法修改。
- 多尺度预测
- VAR 将自回归从"下一个 Token"转为"下一个尺度",提升质量并实现 10 倍以上推理加速。
- 核心瓶颈
- 现有 AR 模型受限于 (1) 离散 Token 化带来的信息损失,(2) 严格因果预测机制导致的多步误差累积——模型无法回溯修正先前错误。Infinity 尝试通过随机翻转比特 Token 实现自校正,但其假设误差率低于 30%,覆盖范围有限。GRN 的全局细化机制从根本上解决了这一缺陷,允许像人类画家一样逐步完善和修正作品。
扩散模型与自适应步长生成 (Diffusion Models & Adaptive-step Generation)
- 扩散模型
- 通过学习速度场将简单噪声先验逐步传输到数据分布的连续流范式,代表工作包括 DiT、Sora、HunyuanVideo、FLUX、SDXL、Stable Diffusion 3 等。
- 固有局限
- 扩散模型通过 MSE 优化,缺乏显式似然估计,被限制为固定步数推理——对所有样本分配相同计算资源,无论复杂度差异。
加速与自适应方向:
- 蒸馏方法
- DMD、DMD2 等大幅减少采样步数,但仍依赖预定义的固定步数调度。
- 实例自适应方法
- AdaDiff 使用外部网络确定实例特定步数,并采用策略梯度最大化奖励,但需要额外网络和奖励信号,流程复杂。
- GRN 的差异化
- 通过熵引导采样策略,GRN 利用 AR 模型固有的可变似然特性,无需额外网络即可实现复杂度感知的自适应步长生成的,在动态分配计算负载的同时保证视觉质量。
与 GRN 核心创新的关联定位
| 维度 | 现有方法局限 | GRN 解决方案 |
|---|---|---|
| Token 化质量 | 离散表示存在重建差距 | HBQ: 理论上近乎无损的分层二值量化 |
| 误差修正 | AR 因果预测导致错误累积 | 全局细化机制: 可回溯修正先前生成 |
| 计算效率 | 扩散模型固定步数"一刀切" | 熵引导采样: 复杂度感知的自适应步长 |
视觉 Tokenizer(Visual Tokenizer)
- 视觉 Tokenizer
- 将高维图像/视频数据压缩为紧凑潜在表示的编码器-解码器架构,是生成模型的基础组件。核心功能包括:编码器将输入映射到潜在空间,解码器从潜在表示重建原始数据。论文采用 3D 因果 VAE 设计(源自 Wan 2.1),统一处理图像和视频,将空间维度压缩 16 倍,时间维度压缩 4 倍。
- VQVAE(Vector Quantized Variational AutoEncoder)
- 首个将向量量化引入视觉生成的模型。通过可学习的码本将连续特征离散化,但受限于码本大小和"索引崩溃"问题(部分码本向量从未被使用)。论文将其归为早期离散化方法,存在扩展性瓶颈。
- VQGAN
- 在 VQVAE 基础上引入 GAN 损失(PatchGAN 判别器)和 Transformer,提升重建质量和生成能力。论文训练损失中的 GAN 损失(λ_GAN)即源自此工作。
- 连续 VAE(如 LDM/Stable Diffusion 所用)
- 不使用离散化,直接在连续潜在空间操作。论文指出离散 Tokenizer 与连续表示之间存在性能差距,HBQ 的目标正是消除这一差距。
- Lookup-Free Quantization(LFQ/BSQ/FSQ)
- 无需显式码本的量化方法,通过约束特征空间实现离散化,支持更大词汇表。论文在 Related Work 中提及此类方法作为扩展方向。
离散 Token 化 vs 连续表示
- 离散 Token 化
- 将连续特征映射为有限集合中的离散索引(或二进制码)。优势:与 NLP 的 token 统一,可直接使用自回归模型;天然适合分类分布建模。劣势:信息损失("有损")、梯度传播困难(需 STE 直通估计器)、码本崩溃。
- 连续表示
- 保留实值潜在向量。优势:信息无损、梯度传播顺畅、重建质量高。劣势:需特殊处理(如流匹配/扩散)才能用于生成,无法直接套用 LLM 的 next-token 范式。
- 论文核心立场
- 当前 AR 视觉生成"受限于有损离散 token 化和误差累积"(Introduction)。HBQ 通过"理论上近无损"的量化,使离散 Tokenizer 在相同潜在维度下匹敌连续 Tokenizer(Contributions 第 2 点)。
自回归模型(AR)原理
- 自回归生成
- 按顺序逐元素预测,每个新 token 以先前已生成的 token 为条件。在视觉领域有两种变体:
- 逐 token 预测(Token-by-token):: 按光栅扫描顺序逐个预测空间 token,如 VQGAN、VideoGPT
- 逐尺度预测(Scale-by-scale):: 从低分辨率到高分辨率逐步生成,如 VAR(论文引用 keyuVAR)
- 因果预测机制
- AR 模型的严格顺序性导致"无法回溯修正先前错误"——这是论文指出的 AR 核心缺陷之一。一旦高置信度 token 被生成,即使后续发现错误也无法修改(Introduction:"strictly causal prediction mechanism...inevitably causes severe error accumulation")。
- 掩码 AR(Masked AR)
- 如 MaskGIT、BERT 式并行解码,先预测高置信度 token 再迭代填充。但论文指出:即使如此,"高置信度 token 变为不可变,之后无法修订",仍缺乏全局细化机制。
扩散模型的基本思想
- 扩散模型核心机制
- 通过渐进式去噪过程将简单噪声先验转换为数据分布。训练时学习速度场(velocity field),推理时沿该场积分轨迹。
- 固定步数问题
- 扩散模型"为所有样本分配相同的计算资源,无论复杂度如何"(Introduction)。优化目标为 MSE,无显式似然,导致无法自适应调整步数。
- 蒸馏方法
- 如 DMD、DMD2,可减少采样步数,但仍依赖预定义的固定步数调度。
- 论文对比立场
- GRN 旨在结合扩散的高质量与 AR 的复杂度感知能力,同时克服两者的缺陷(扩散的固定成本、AR 的误差累积)。
熵在信息论中的含义
- 信息熵(Shannon Entropy)
- H(X) = -Σ p(x) log p(x),度量随机变量的不确定性或信息量。熵越高,分布越"平坦",预测越困难;熵越低,分布越"尖锐",预测越确定。
- 在 GRN 中的应用
- 论文提出"熵引导采样策略"(entropy-guided sampling),动态分配计算负载。具体而言,模型根据当前生成步骤的预测分布熵值,自适应决定每步需要细化的 token 数量——复杂区域(高熵)分配更多计算,简单区域(低熵)分配更少。
- 复杂度感知生成
- AR 模型"天生具有复杂度感知能力,表现为可变似然"(Introduction),而扩散模型缺乏此特性。GRN 通过熵引导机制显式实现这一能力,使不同复杂度的样本使用不同生成步数。
Haar 小波变换
- Haar 小波
- 最简单的小波变换,由 Alfréd Haar 于 1910 年提出(论文引用 haar1910theorie)。将信号分解为不同频率分量:低频近似(均值)和高频细节(差值)。
- 多分辨率分析
- 通过迭代应用,实现从粗到细(coarse-to-fine)的信号表示。每一层将信号减半,同时捕获更精细的细节。
- 与 HBQ 的关联
- 论文明确将 HBQ 的灵感归于 Haar 小波("Inspired by Harr Wavelet in signal processing")。HBQ 的每一轮二进制量化对应于从粗到细的频率分解:
- 第一轮(q_1):最粗粒度,决定符号(正/负),误差上界 1/2
- 第二轮(q_2):细化,误差上界 1/4
- 第 j 轮:误差上界 1/2^j,指数衰减
- 二进制树桶结构
- HBQ 基于中心 c 的二叉树桶进行量化(Eq.1-2),与 Haar 小波的二分分解结构同构,实现"无需增加潜在通道数即可指数衰减重建误差"。
- 扩散模型为何必须采用固定步数?既然不同样本的生成难度差异显著,为何不能根据样本复杂度动态分配计算资源?现有自适应步数方法(如 AdaDiff)需要额外网络和奖励信号,是否存在更简洁的复杂度感知机制?
- 自回归模型的误差累积问题为何难以解决?现有方法如 Infinity 通过随机翻转比特 token 实现自校正,但假设错误率低于 30%,这种假设在实际生成中是否过于局限?全局性的错误修正机制在自回归框架中是否可行?
- HBQ 声称通过分层二叉量化实现"近乎无损"的离散化,但量化误差理论上以指数衰减((e_j < 1/2^j)),在实际 VAE 解码器中,这种理论保证能否转化为真实的重建质量?与连续 VAE 相比,HBQ 在相同 latent 维度下达到 0.56 rFID 的关键是什么?
- GRN 的"全局精炼机制"具体如何运作?它如何在保持自回归结构的同时,实现对已生成 token 的回顾性修正?这与扩散模型的迭代去噪有何本质区别?
- 论文提到 GRN 在 T2I 和 T2V 任务上"同等规模下表现更优",但扩散模型在这些领域已有成熟生态(如 FLUX、Wan),GRN 在推理效率和生成质量之间的权衡是否具备实际部署优势?
核心问题
- 扩散模型计算效率低下
- 对所有样本分配相同的计算资源,无法根据内容复杂度自适应调整步数("allocate uniform computational effort to samples with varying levels of complexity")
- 自回归模型离散化瓶颈
- 现有离散 tokenizer 重建质量显著低于连续表示,且严格因果预测机制导致误差累积无法修正("lossy discrete tokenization and error accumulation")
- 缺乏全局修正机制
- 传统 AR 模型(包括 Masked AR)一旦生成高置信度 token 便不可更改,无法像人类画家一样 retroactively 修正错误("high-confidence tokens become immutable and cannot be revised later")
关键洞察与创新点
- HBQ 近乎无损离散压缩
- 通过层级二叉量化,量化误差上限以指数衰减(误差 < 1/2^j),在不增加 latent 通道数的前提下,首次使离散 tokenizer 达到与连续 tokenizer 同等的重建质量(rFID 0.56)
- 全局细化机制
- 引入类似人类画家创作的"草图→精修"范式,模型可在后续步骤中 retroactively 修正先前生成的 token,从根本上解决 AR 模型的误差累积问题
- 熵引导自适应采样
- 以 token 分布的熵作为复杂度指标,动态分配生成步数——简单区域一步通过,复杂区域多步细化,实现复杂度感知的自适应计算分配
- 统一图像/视频 tokenizer
- 基于 3D 因果 VAE 设计,支持图像和视频在统一框架下 tokenize
与之前工作的区别
| 维度 | 之前工作 | GRN |
|---|---|---|
| 离散量化 | VQ/VQGAN/FSQ 等存在明显重建质量 gap;Infinity 等通过扩大词表弥补但收敛慢 | HBQ 通过指数衰减误差实现理论近乎无损,同维度下首次匹敌连续 VAE |
| AR 生成机制 | 严格因果预测,误差累积不可逆;Masked AR 高置信 token 不可修改 | 全局细化机制允许 retroactive 修正,突破因果限制 |
| 自适应计算 | 扩散模型固定步数;AdaDiff 需额外网络和强化学习训练 | 熵引导采样无需额外网络,基于模型自身置信度动态调整 |
| 误差修正 | Infinity 随机翻转 bit 假设错误率<30%,覆盖有限 | 全局细化显式修正任意位置的先前错误 |
关键证据
- 重建质量
- ImageNet 256×256 上 rFID = 0.56,为当前最优记录
- 生成质量
- class-conditional gFID = 1.81,超越同等规模扩散模型
- 扩展性
- 成功 scale 至 1024×1024 文本到图像生成和 480p 文本到视频生成(2-10 秒)
- 量化理论
- HBQ 第 j 轮量化误差上限为 1/2^j,M 轮后总误差指数级收敛(Eq. 1-3)
- 熵引导
- 以 token 熵值作为停止/继续生成的判断标准,实现"简单内容少步、复杂内容多步"
Hierarchical Binary Quantization (HBQ)
- HBQ
- 一种层次化二值量化方法,将 VAE 编码后的连续特征映射到离散二进制表示,通过多轮粗到细的量化实现理论上的近无损压缩。
HBQ 的算法流程如下:
- 预处理: 在 VAE 编码器后添加 ~tanh(·)~ 激活函数,将特征表示 (F) 从无界范围映射到闭区间 ((-1, +1))。
- 多轮二值量化: 每个特征元素进行 (M) 轮二进制量化,基于二叉树桶结构。第 (i) 轮的量化中心 (c_i) 和量化标签 (q_i) 由以下公式定义:
$(c_i = \sum_{j=1}^{i-1} \frac{\delta[q_j]}{2^j})$
$(q_i = \begin{cases} 0 & \text{if } F \leq c_i \\ 1 & \text{if } F > c_i \end{cases})$
其中 (\delta(\cdot)) 为 delta 函数:当 (q_i = 0) 时输出 (-1),否则输出 (+1)。
- 误差特性: 第 (j) 轮的量化误差上限为 (1/2^j),呈指数衰减。因此随着轮数增加,重建误差迅速收敛,理论上可实现无损量化。
- 重建: 量化特征 (\hat{F}) 通过二进制标签的加权和重建:
$(\hat{F} = \sum_{j=1}^{M} \delta[q_j] \cdot 2^{-j})$
- 训练: 使用直通估计器(STE)将梯度回传至编码器。损失函数为重建损失、LPIPS 感知损失和 PatchGAN 判别器 GAN 损失的加权和。
关键特性:
- 不增加 latent 通道数即可实现近无损重建
- 粗到细(coarse-to-fine)表示不同频率信息
- 在相同 latent 维度下,离散 tokenizer 首次达到与连续 tokenizer 相当的性能
来源:第 3.1 节,公式 (1)-(3),图 2-3
全局细化机制
- 全局细化机制
- GRN 的核心生成机制,允许模型在生成过程中像人类画家一样逐步完善和修正已生成的 token,突破传统 AR 模型的严格因果性限制。
工作方式:
- 问题背景: 传统 AR 模型(包括逐 token 或逐 scale 的模型)严格遵循因果预测,无法回溯修改已生成的 token,导致多步生成中误差累积。即使 MaskGIT 等并行解码模型,高置信度 token 一旦生成就不可修改。
- 核心思想: GRN 在 HBQ 的 latent 空间上执行全局细化,模型可以在后续步骤中回溯性地(retroactively)修改之前生成的 token,实现整体性的错误修正。
- 类比: 论文将其类比为人类画家作画——不是一次性完成,而是通过多轮迭代逐步完善作品,随时修正之前的不当之处。
- 与现有方法的区别:
- Infinity [hanjInfinity] 引入随机翻转 bitwise token 的自我修正,但假设错误率低于 30%,覆盖模式有限
- GRN 的全局细化机制是系统性的、不受错误分布限制的修正能力
来源:第 1 节引言,第 3.2 节
熵引导采样
- 熵引导采样
- 一种复杂度感知的自适应步数生成策略,根据 token 的不确定性(熵)动态分配计算资源,实现"简单样本快速生成,复杂样本精细生成"。
策略细节:
- 核心思想: 不同样本的生成复杂度不同,统一分配计算步骤是低效的。通过监控 token 的熵值,模型可以判断哪些区域需要更多细化步骤。
- 执行方式:
- 高熵 token(不确定性高):分配更多细化步骤,确保生成质量
- 低熵 token(置信度高):快速通过,减少不必要的计算
- 优势:
- 实现复杂度感知的自适应步数生成(complexity-aware adaptive-step generation)
- 不牺牲视觉质量的前提下提升效率
- 克服了扩散模型"一刀切"固定步数的局限
- 与扩散模型对比: 扩散模型通过 MSE 优化,缺乏显式似然估计,只能使用固定步数。GRN 通过 token 级似然估计实现真正的自适应计算分配。
来源:摘要,第 1 节引言,第 3.2 节
Visual Tokenizer 训练
- 架构基础
- 采用 Wan 2.1 的 3D causal VAE 设计,统一处理图像和视频。编码器后接 tanh 激活,将特征映射到 (-1, +1) 区间,再通过 HBQ 量化为离散二进制标签 {q_1, ..., q_M}。
- 梯度回传
- 使用 Straight-Through Estimator (STE) 将梯度回传至编码器,这是离散 tokenizer 训练的常见做法。
- 损失函数(加权组合) ::
- 重建损失 (Reconstruction Loss):λ_recons
- LPIPS 感知损失:λ_LPIPS
- GAN 损失 (PatchGAN Discriminator):λ_GAN
- 具体权重配置 ::
- 图像专用 tokenizer:λ_recons=1.0, λ_LPIPS=1.0, λ_GAN=0.3
- 联合图像-视频 tokenizer:λ_recons=1.0, λ_LPIPS=0.2, λ_GAN=0.005
- 训练数据
- 图像 tokenizer 在 OpenImages 上训练;联合 tokenizer 在公开图像+视频数据集组合上训练。
来源:§3.1, §4.1, Table 1/2
生成模型 (GRN) 训练
- 训练范式
- 基于 HBQ 离散 latent 空间的自回归 refinement。每轮迭代从均匀分布随机采样随机 token Y_rand 和选择比例 l_t,构造输入 F_t(部分真实 token + 部分随机 token)。
- 损失函数
- 标准 Cross-Entropy (CE) 损失,预测 ground-truth token:
$(\mathcal{L} = -\mathbf{E}\left[\frac{1}{N}\sum_{i=0}^{N} \log p(y_i \mid F_t, cond)\right])$
- 条件注入 ::
- Class-to-Image (C2I):in-context class conditioning
- Text-to-Image (T2I):in-context self-attention(非 adaln-zero)
- 训练细节 (C2I)
- ImageNet 上训练 600 epochs;学习率 2e-4(恒定);10% 条件随机丢弃用于 Classifier-Free Guidance。
- 训练细节 (T2I)
- 256 分辨率预训练 150K iterations(batch size ~15400, lr=2e-4);1024 分辨率微调 60K iterations(batch size 2048, lr=2e-5)。
- 模型变体 ::
- GRN_ind:将 M 维二进制编码为 INT 标量(K=2^M 类)
- GRN_bit:直接预测二进制位(K=2 类)
- 复杂度感知采样
- 推理阶段使用熵引导调度函数动态控制 l_t,实现自适应步数生成。熵计算:
$(H(Y_t) = \frac{1}{N}\cdot\frac{1}{\log_2 K}\sum_{i=0}^{N}\sum_{j=0}^{K} -p(y_{(i,j)} \mid F_{t-1}, cond) \cdot \log_2 p(y_{(i,j)} \mid F_{t-1}, cond))$
来源:§3.2, §4.2, §4.3, Eq. 7/8/9
实验设置和评估基准
| 任务 | 数据集 | 分辨率 | 训练设置 |
|---|---|---|---|
| ImageNet C2I | ImageNet | 256×256 | 600 epochs, batch=1024, lr=2e-4 |
| Text-to-Image | 公开数据集 + 高质量私有数据 | 256→1024 | 150K iter (256p) + 60K iter (1024p) |
| Text-to-Video | ~40M 视频片段 | 192→480p, 2-10秒 | 150K iter (192p) + 9K iter (480p) |
对比的 Baseline 方法
- Diffusion/Flow: DiT, SiT, REPA, RAE, JiT, MAR, SD3 Medium, FLUX.1-Dev, SD3.5-Large
- Hybrid: BitDance-H-1x
- AR 模型: LlamaGen, MaskGIT, VAR, RandAR-XXL, Infinity, Emu3, Nova, InfinityStar
- T2I: PixArt-α, JanusFlow, Lumina-Image-2.0, Show-o2, Z-Image-Turbo, HiDream, Qwen-Image, BAGEL
- T2V: AnimateDiff-V2, VideoCrafter-2.0, OpenSora V1.2, Show-1, URSA, CogVideoX-5B, HunyuanVideo, Wan 2.1
评估指标
| 指标 | 含义 | 关键结果 |
|---|---|---|
| rFID | 重建 FID (reconstruction quality) | 0.56 (ImageNet 256×256) |
| gFID / FID | 生成 FID (generation quality) | 1.81 (GRN-G, 2B params) |
| IS | Inception Score | 299.0 (GRN-G) |
| LPIPS | 感知相似度 | 0.13 (tokenizer) |
| PSNR | 峰值信噪比 | 23.01 (image), 33.98 (video, 64ch) |
| rFVD | 重建 FVD (video) | 30.1 (video tokenizer, tuned λ_GAN) |
| GenEval Overall | T2I 综合评测 | 0.76 (2B model) |
| VBench Overall | T2V 综合评测 | 82.99 (2B model, with prompt rewriting) |
关键实验结果
- Tokenizer: HBQ (M=4) 在 ImageNet 256×256 上达到 rFID 0.56,超越 SD-VAE (0.87)、RAE (0.62)、VAR (0.85) 等连续/离散 tokenizer,压缩率提升 4×
- C2I: GRN-G (2B) 达到 FID 1.81 / IS 299.0,超越 DiT-XL/2 (2.27)、SiT-XL/2 (2.06)、JiT-G/16 (1.82)、VAR-d30 (1.92)、BitDance-H-1x (1.24)
- T2I: GRN (2B, 80M 数据) GenEval Overall 0.76,优于同规模 SD3 Medium (0.62) 和 Infinity (0.71)
- T2V: GRN (2B) VBench Overall 82.99,超越 CogVideoX-5B (81.61)、HunyuanVideo (83.24 但 13B)、Nova (80.12)、Emu3 (80.96)
消融实验
- Predict Indices vs. Bits: GRNind-B FID 3.56 vs GRNbit-B FID 3.63;GRNbit-L FID 2.47 优于 GRNind-L FID 2.64
- Global Refinement: 对比 Mask-based 方法 (FID 185.62→18.13),Refine 机制显著优于固定 token 的 MaskGIT/BERT 范式
- Complexity-Aware Sampling: 62.7% 样本使用 <50 步,约 200 张图仅用 20 步;FID 从 3.6 微降至 3.8 但节省大量计算
来源: arXiv:2604.13030v1, Sections 4.1–4.5, Tables 1–7
定量结果总结
| 任务 | 模型 | 关键指标 | 数值 |
|---|---|---|---|
| ImageNet 256×256 C2I | GRN-G (2B params) | FID ↓ / IS ↑ | 1.81 / 299.0 |
| Tokenizer (ImageNet 256×256) | HBQ (M=4) | rFID ↓ | 0.56 |
| Text-to-Image | GRN (2B, 80M 数据) | GenEval Overall ↑ | 0.76 |
| Text-to-Video | GRN (2B) | VBench Overall ↑ | 82.99 |
与 SOTA 方法的详细对比
ImageNet 256×256 Class-Conditional 生成
| 方法 | 参数量 | FID ↓ | IS ↑ |
|---|---|---|---|
| GRN-G (Ours) | 2B | 1.81 | 299.0 |
| LDM [1] | - | 15.51 | 158.71 |
| DiT-XL/2 [2] | 675M | 9.60 | 121.5 |
| VAR [3] | 2B | 3.30 | 274.4 |
| MAR-H [4] | 943M | 1.98 | 283.5 |
| Infinity [5] | 2B | 1.98 | 296.0 |
GRN-G 以 2B 参数量达到 FID 1.81,超越 MAR-H (1.98) 和 Infinity (1.98),IS 299.0 亦为最高 [来源: §4.2, Table 1]
Tokenizer 重建质量 (rFID)
| Tokenizer | 类型 | rFID ↓ |
|---|---|---|
| HBQ (M=4, Ours) | 离散 | 0.56 |
| SD-VAE [6] | 连续 | 0.87 |
| RAE [7] | 连续 | 0.62 |
| VAR [3] | 离散 | 0.85 |
| FSQ [8] | 离散 | 0.78 |
HBQ 首次使离散 tokenizer 在相同 latent 维度下达到与连续 tokenizer 相当甚至更好的重建质量 [来源: §3.1, §4.1, Table 1]
Text-to-Image (GenEval)
| 方法 | 规模 | GenEval Overall ↑ |
|---|---|---|
| GRN (Ours) | 2B, 80M 数据 | 0.76 |
| SD3 Medium [9] | - | 0.62 |
| Infinity [5] | - | 0.71 |
GRN 在 GenEval 上显著优于 SD3 Medium (+22.6%) 和 Infinity (+7.0%) [来源: §4.3, Table 2]
Text-to-Video (VBench)
| 方法 | 规模 | VBench Overall ↑ |
|---|---|---|
| GRN (Ours) | 2B | 82.99 |
| CogVideoX-5B [10] | 5B | 81.61 |
| Nova [11] | - | 80.12 |
| Emu3 [12] | - | 80.96 |
GRN 以 2B 参数量超越 5B 规模的 CogVideoX-5B [来源: §4.4, Table 3]
消融实验结果
Predict Indices vs Bits
| 变体 | 配置 | FID ↓ |
|---|---|---|
| GRNind-B | 预测索引 | 3.56 |
| GRNbit-B | 预测比特 | 3.63 |
预测索引 (indices) 略优于预测比特 (bits),FID 差距 0.07 [来源: §4.2, Table 4]
Global Refinement 机制
| 配置 | FID ↓ | 说明 |
|---|---|---|
| 无 Global Refinement (Mask-based) | 185.62 | 基线方法 |
| 加入 Global Refinement | 18.13 | 提升约 10× |
Global Refinement 机制将 FID 从 185.62 降至 18.13,验证了全局修正对缓解误差累积的关键作用 [来源: §4.2, Table 4]
Complexity-Aware Sampling (Entropy-Guided)
| 指标 | 数值 |
|---|---|
| 使用 <50 步的样本比例 | 62.7% |
| 平均步数 | <50 (多数样本) |
熵引导的自适应采样使 62.7% 的样本可在少于 50 步内完成生成,实现复杂度感知的计算分配 [来源: §4.2, Table 4]
HBQ 量化轮数 M 的影响
| M | rFID ↓ | 说明 |
|---|---|---|
| M=2 | 较高 | 量化误差大 |
| M=4 | 0.56 | 最佳平衡点 |
| M=6 | 接近 M=4 | 收益递减 |
M=4 时重建质量已接近连续 VAE,继续增加 M 收益有限 [来源: §4.1, Figure 4]
关键结论
- HBQ 解决了离散 tokenizer 的重建瓶颈,rFID 0.56 超越现有连续和离散方法
- GRN 在 ImageNet C2I、T2I、T2V 三个任务上均达到或超越同等规模 SOTA
- Global Refinement 是核心创新,将无修正基线的 FID 从 185.62 降至 18.13
- Complexity-Aware Sampling 使多数样本 (62.7%) 可用 <50 步完成,提升推理效率
- 预测索引 (indices) 策略略优于预测原始比特 (bits)
论文主要结论
- GRN 通过全局细化机制和复杂度感知生成,在视觉合成任务上实现了 SOTA 性能,ImageNet 256×256 上 rFID 0.56、gFID 1.81,显著优于现有扩散模型和自回归模型
- HBQ 首次使离散视觉 tokenizer 达到与连续 tokenizer 相当的重建质量,量化误差理论上随轮次指数衰减,实现了近无损压缩
- 复杂度感知生成通过熵引导采样动态分配计算资源,简单样本步数少、复杂样本步数多,不牺牲视觉质量
- GRN 具备良好的任务泛化性和可扩展性,成功扩展到 1024×1024 T2I 和 480p T2V 任务
核心贡献总结
| 贡献 | 关键内容 | 证据 |
|---|---|---|
| GRN 框架 | 全局细化机制 + 复杂度感知生成 | 论文§1, §3.2-3.3 |
| HBQ 量化 | 分层二进制量化,误差指数衰减 | 论文§3.1, Eq.1-3, Fig.2-3 |
| SOTA 结果 | ImageNet rFID 0.56, gFID 1.81 | 论文§1, §4 |
| 扩展性 | T2I 1024×1024, T2V 480p 2-10s | 论文§1, §4.3-4.4 |
对未来研究的启示
- 离散表示的复兴:HBQ 证明离散 tokenizer 不必劣于连续表示,未来可能推动更多基于离散潜空间的生成模型研究,而非一味追求连续扩散
- 自适应计算成为标配:复杂度感知生成提示未来视觉模型应像 LLM 一样具备"思考深度"的自适应能力,而非固定步数推理
- 全局细化机制的泛化:GRN 的"绘画式"全局修正可扩展到其他序列生成任务(如音频、3D),突破自回归的因果限制
- 效率与质量的重新权衡:GRN 在同等规模下优于扩散模型,可能引发对扩散范式主导地位的重新评估,特别是在资源受限场景
- 开源生态:代码和模型已发布( https://github.com/MGenAI/GRN ),为社区复现和改进提供基础
技术启示
- HBQ 的指数衰减误差保证:Hierarchical Binary Quantization 通过二叉树逐轮量化,每轮误差上界为 (1/2^j),理论上可实现近乎无损的离散压缩,首次让离散 tokenizer 在同等 latent 维度下匹敌连续表示(rFID 0.56)。这揭示了"分层粗到细"是连接离散与连续表示的桥梁。
- 全局细化 = 非因果自校正:GRN 突破了传统 AR 模型的严格因果性约束,允许模型像人类画家一样"回头修改"已生成的 token,从根本上解决了 AR 模型的误差累积问题。
- 熵作为计算复杂度的代理:利用 token 分布的熵动态决定采样步数,实现了"简单样本少步、复杂样本多步"的自适应计算分配,无需额外网络或强化学习训练。
- AR+Diffusion 的范式融合:GRN 保留了 AR 的似然建模和自适应计算优势,同时通过全局细化获得了 Diffusion 的迭代修正能力,可能是下一代视觉生成的基础架构。
对视觉生成模型发展的思考
- 离散 token 的复兴:此前普遍认为连续 VAE 优于离散 tokenizer,HBQ 证明离散表示在足够精细的量化策略下可以达到同等质量,且更利于 AR 生成。
- 从"一步定终身"到"迭代修正":MaskGIT 等并行 AR 模型一旦确定高置信 token 便不可更改,GRN 的全局细化机制表明"可逆性"是提升生成质量的关键。
- 计算效率的新维度:Diffusion 的固定步数 vs AR 的变长序列 vs GRN 的熵引导自适应步数——未来的效率优化应从"减少总步数"转向"按复杂度分配步数"。
- 错误累积的系统性解决:Infinity 等方法的自校正假设误差<30%,GRN 通过全局细化不依赖此类假设,更具鲁棒性。
可能的实践价值或应用方向
- 实时/边缘设备生成:自适应步数意味着简单图像可用极少步数生成,适合移动端实时应用。
- 视频生成:HBQ 统一了图像和视频 tokenization,GRN 在 Wan 2.1 的 3D causal VAE 基础上扩展,480p 2-10 秒视频生成已验证。
- 交互式编辑:全局细化机制天然支持"草图→精修"的交互式创作流程,类似数字绘画软件的图层修正。
- 多模态统一:离散 token 便于与 LLM 对齐,GRN 可能成为视觉-语言统一生成的基础组件。
- 压缩与传输:HBQ 的粗到细特性支持渐进式传输,先传低精度预览、再传细化层。