ESC
输入关键词搜索文章
目录

GRN

生成式细化网络
通过 HBQ 量化误差指数衰减 + 全局细化 + 熵引导采样,ImageNet 256×256 rFID 0.56 / gFID 1.81
参考链接

参考链接

  • arXiv 页面
    https://arxiv.org/abs/2604.13030v1
  • PDF 下载
    https://arxiv.org/pdf/2604.13030v1
  • 代码仓库
    https://github.com/MGenAI/GRN
  • 机构
    ByteDance

作者信息

作者邮箱
Jian Hanhanjian.thu123@bytedance.com
Jinlai Liuliujinlai.licio@bytedance.com
Jiahuan Wangwangjiahuan.123@bytedance.com
Bingyue Pengbingyue.peng@bytedance.com
Zehuan Yuan (通讯作者)yuanzehuan@bytedance.com
简介

GRN(Generative Refinement Networks)是 ByteDance 提出的下一代视觉合成框架,旨在解决当前两大主流范式的核心缺陷:

  1. 扩散模型虽然主导视觉生成,但通过 MSE 优化、缺乏显式似然估计,只能使用固定步数推理,无法根据样本复杂度自适应分配计算资源。
  2. 自回归(AR)模型虽然天然具有复杂度感知能力(表现为可变似然),但受限于有损离散 token 化和严格因果预测机制导致的误差累积,且无法回溯修正先前错误。

GRN 提出三大核心创新:

  • HBQ(Hierarchical Binary Quantization):分层二值量化,量化误差以指数衰减((e_j < 1/2^j)),首次使离散 tokenizer 在相同 latent 维度下匹敌连续 tokenizer,ImageNet 256×256 上 rFID 达 0.56。
  • 全局细化机制:突破 AR 模型的因果性限制,允许模型像人类画家一样在后续步骤中回溯修正先前生成的 token,从根本上解决误差累积问题。
  • 熵引导采样:以 token 分布的熵作为复杂度指标,动态分配生成步数,实现“简单样本少步、复杂样本多步”的自适应计算分配。

实验结果:ImageNet 256×256 上 rFID 0.56(重建)和 gFID 1.81(生成)均创下新纪录,并成功扩展到 1024×1024 文本到图像和 480p 文本到视频生成。

来源:Abstract, §1 Introduction

图 1:GRN 在 ImageNet 256×256 上的 class-conditional 生成效果(gFID = 1.81)
相关工作

视觉 Tokenizer (Visual Tokenizers)

  • 视觉 Tokenizer
    将高维连续视觉数据压缩为离散 Token 表示的编码器-解码器架构,是生成模型的基础组件。

现有方法主要分为两类:

  • 向量量化方法
    VQVAE、VQGAN 等通过可学习码本将连续特征映射为离散索引,但受限于码本规模,重建质量有限。
  • 无查找表方法
    BSQ、FSQ 等通过分解量化空间避免显式码本,支持更大词汇表,但仍与连续表示存在性能差距。

近期趋势
Infinity、BitDance 等工作通过大幅扩展词汇表规模超越了连续 VAE,但代价是收敛速度变慢和生成模型体积增大。GRN 提出的 HBQ 通过分层二值量化,在不增加通道数的情况下实现指数级误差衰减,首次使离散 Tokenizer 在相同潜在维度下与连续 Tokenizer 持平。

自回归视觉生成模型 (Autoregressive Models for Visual Synthesis)

  • 自回归视觉生成
    受大语言模型启发,将视觉生成建模为序列预测任务的方法范式。

代表性工作:

  • 逐 Token 预测
    VQGAN、LlamaGen、VideoPoet 等按光栅扫描顺序逐个预测视觉 Token。
  • 并行解码
    MaskGIT 通过迭代填充高置信度 Token 加速生成,但一旦确定无法修改。
  • 多尺度预测
    VAR 将自回归从"下一个 Token"转为"下一个尺度",提升质量并实现 10 倍以上推理加速。

核心瓶颈
现有 AR 模型受限于 (1) 离散 Token 化带来的信息损失,(2) 严格因果预测机制导致的多步误差累积——模型无法回溯修正先前错误。Infinity 尝试通过随机翻转比特 Token 实现自校正,但其假设误差率低于 30%,覆盖范围有限。GRN 的全局细化机制从根本上解决了这一缺陷,允许像人类画家一样逐步完善和修正作品。

扩散模型与自适应步长生成 (Diffusion Models & Adaptive-step Generation)

扩散模型
通过学习速度场将简单噪声先验逐步传输到数据分布的连续流范式,代表工作包括 DiT、Sora、HunyuanVideo、FLUX、SDXL、Stable Diffusion 3 等。

固有局限
扩散模型通过 MSE 优化,缺乏显式似然估计,被限制为固定步数推理——对所有样本分配相同计算资源,无论复杂度差异。

加速与自适应方向:

  • 蒸馏方法
    DMD、DMD2 等大幅减少采样步数,但仍依赖预定义的固定步数调度。
  • 实例自适应方法
    AdaDiff 使用外部网络确定实例特定步数,并采用策略梯度最大化奖励,但需要额外网络和奖励信号,流程复杂。

GRN 的差异化
通过熵引导采样策略,GRN 利用 AR 模型固有的可变似然特性,无需额外网络即可实现复杂度感知的自适应步长生成的,在动态分配计算负载的同时保证视觉质量。

与 GRN 核心创新的关联定位

维度现有方法局限GRN 解决方案
Token 化质量离散表示存在重建差距HBQ: 理论上近乎无损的分层二值量化
误差修正AR 因果预测导致错误累积全局细化机制: 可回溯修正先前生成
计算效率扩散模型固定步数"一刀切"熵引导采样: 复杂度感知的自适应步长
前置知识

视觉 Tokenizer(Visual Tokenizer)

  • 视觉 Tokenizer
    将高维图像/视频数据压缩为紧凑潜在表示的编码器-解码器架构,是生成模型的基础组件。核心功能包括:编码器将输入映射到潜在空间,解码器从潜在表示重建原始数据。论文采用 3D 因果 VAE 设计(源自 Wan 2.1),统一处理图像和视频,将空间维度压缩 16 倍,时间维度压缩 4 倍。
  • VQVAE(Vector Quantized Variational AutoEncoder)
    首个将向量量化引入视觉生成的模型。通过可学习的码本将连续特征离散化,但受限于码本大小和"索引崩溃"问题(部分码本向量从未被使用)。论文将其归为早期离散化方法,存在扩展性瓶颈。
  • VQGAN
    在 VQVAE 基础上引入 GAN 损失(PatchGAN 判别器)和 Transformer,提升重建质量和生成能力。论文训练损失中的 GAN 损失(λ_GAN)即源自此工作。
  • 连续 VAE(如 LDM/Stable Diffusion 所用)
    不使用离散化,直接在连续潜在空间操作。论文指出离散 Tokenizer 与连续表示之间存在性能差距,HBQ 的目标正是消除这一差距。
  • Lookup-Free Quantization(LFQ/BSQ/FSQ)
    无需显式码本的量化方法,通过约束特征空间实现离散化,支持更大词汇表。论文在 Related Work 中提及此类方法作为扩展方向。

离散 Token 化 vs 连续表示

  • 离散 Token 化
    将连续特征映射为有限集合中的离散索引(或二进制码)。优势:与 NLP 的 token 统一,可直接使用自回归模型;天然适合分类分布建模。劣势:信息损失("有损")、梯度传播困难(需 STE 直通估计器)、码本崩溃。
  • 连续表示
    保留实值潜在向量。优势:信息无损、梯度传播顺畅、重建质量高。劣势:需特殊处理(如流匹配/扩散)才能用于生成,无法直接套用 LLM 的 next-token 范式。
  • 论文核心立场
    当前 AR 视觉生成"受限于有损离散 token 化和误差累积"(Introduction)。HBQ 通过"理论上近无损"的量化,使离散 Tokenizer 在相同潜在维度下匹敌连续 Tokenizer(Contributions 第 2 点)。

自回归模型(AR)原理

  • 自回归生成
    按顺序逐元素预测,每个新 token 以先前已生成的 token 为条件。在视觉领域有两种变体:
  • 逐 token 预测(Token-by-token):: 按光栅扫描顺序逐个预测空间 token,如 VQGAN、VideoGPT
  • 逐尺度预测(Scale-by-scale):: 从低分辨率到高分辨率逐步生成,如 VAR(论文引用 keyuVAR)
  • 因果预测机制
    AR 模型的严格顺序性导致"无法回溯修正先前错误"——这是论文指出的 AR 核心缺陷之一。一旦高置信度 token 被生成,即使后续发现错误也无法修改(Introduction:"strictly causal prediction mechanism...inevitably causes severe error accumulation")。
  • 掩码 AR(Masked AR)
    如 MaskGIT、BERT 式并行解码,先预测高置信度 token 再迭代填充。但论文指出:即使如此,"高置信度 token 变为不可变,之后无法修订",仍缺乏全局细化机制。

扩散模型的基本思想

  • 扩散模型核心机制
    通过渐进式去噪过程将简单噪声先验转换为数据分布。训练时学习速度场(velocity field),推理时沿该场积分轨迹。
  • 固定步数问题
    扩散模型"为所有样本分配相同的计算资源,无论复杂度如何"(Introduction)。优化目标为 MSE,无显式似然,导致无法自适应调整步数。
  • 蒸馏方法
    如 DMD、DMD2,可减少采样步数,但仍依赖预定义的固定步数调度。
  • 论文对比立场
    GRN 旨在结合扩散的高质量与 AR 的复杂度感知能力,同时克服两者的缺陷(扩散的固定成本、AR 的误差累积)。

熵在信息论中的含义

  • 信息熵(Shannon Entropy)
    H(X) = -Σ p(x) log p(x),度量随机变量的不确定性或信息量。熵越高,分布越"平坦",预测越困难;熵越低,分布越"尖锐",预测越确定。
  • 在 GRN 中的应用
    论文提出"熵引导采样策略"(entropy-guided sampling),动态分配计算负载。具体而言,模型根据当前生成步骤的预测分布熵值,自适应决定每步需要细化的 token 数量——复杂区域(高熵)分配更多计算,简单区域(低熵)分配更少。
  • 复杂度感知生成
    AR 模型"天生具有复杂度感知能力,表现为可变似然"(Introduction),而扩散模型缺乏此特性。GRN 通过熵引导机制显式实现这一能力,使不同复杂度的样本使用不同生成步数。

Haar 小波变换

  • Haar 小波
    最简单的小波变换,由 Alfréd Haar 于 1910 年提出(论文引用 haar1910theorie)。将信号分解为不同频率分量:低频近似(均值)和高频细节(差值)。
  • 多分辨率分析
    通过迭代应用,实现从粗到细(coarse-to-fine)的信号表示。每一层将信号减半,同时捕获更精细的细节。
  • 与 HBQ 的关联
    论文明确将 HBQ 的灵感归于 Haar 小波("Inspired by Harr Wavelet in signal processing")。HBQ 的每一轮二进制量化对应于从粗到细的频率分解:
  • 第一轮(q_1):最粗粒度,决定符号(正/负),误差上界 1/2
  • 第二轮(q_2):细化,误差上界 1/4
  • 第 j 轮:误差上界 1/2^j,指数衰减
  • 二进制树桶结构
    HBQ 基于中心 c 的二叉树桶进行量化(Eq.1-2),与 Haar 小波的二分分解结构同构,实现"无需增加潜在通道数即可指数衰减重建误差"。
阅读前疑问
  • 扩散模型为何必须采用固定步数?既然不同样本的生成难度差异显著,为何不能根据样本复杂度动态分配计算资源?现有自适应步数方法(如 AdaDiff)需要额外网络和奖励信号,是否存在更简洁的复杂度感知机制?
  • 自回归模型的误差累积问题为何难以解决?现有方法如 Infinity 通过随机翻转比特 token 实现自校正,但假设错误率低于 30%,这种假设在实际生成中是否过于局限?全局性的错误修正机制在自回归框架中是否可行?
  • HBQ 声称通过分层二叉量化实现"近乎无损"的离散化,但量化误差理论上以指数衰减((e_j < 1/2^j)),在实际 VAE 解码器中,这种理论保证能否转化为真实的重建质量?与连续 VAE 相比,HBQ 在相同 latent 维度下达到 0.56 rFID 的关键是什么?
  • GRN 的"全局精炼机制"具体如何运作?它如何在保持自回归结构的同时,实现对已生成 token 的回顾性修正?这与扩散模型的迭代去噪有何本质区别?
  • 论文提到 GRN 在 T2I 和 T2V 任务上"同等规模下表现更优",但扩散模型在这些领域已有成熟生态(如 FLUX、Wan),GRN 在推理效率和生成质量之间的权衡是否具备实际部署优势?
面临问题及 Insights

核心问题

  • 扩散模型计算效率低下
    对所有样本分配相同的计算资源,无法根据内容复杂度自适应调整步数("allocate uniform computational effort to samples with varying levels of complexity")
  • 自回归模型离散化瓶颈
    现有离散 tokenizer 重建质量显著低于连续表示,且严格因果预测机制导致误差累积无法修正("lossy discrete tokenization and error accumulation")
  • 缺乏全局修正机制
    传统 AR 模型(包括 Masked AR)一旦生成高置信度 token 便不可更改,无法像人类画家一样 retroactively 修正错误("high-confidence tokens become immutable and cannot be revised later")

关键洞察与创新点

  • HBQ 近乎无损离散压缩
    通过层级二叉量化,量化误差上限以指数衰减(误差 < 1/2^j),在不增加 latent 通道数的前提下,首次使离散 tokenizer 达到与连续 tokenizer 同等的重建质量(rFID 0.56)
  • 全局细化机制
    引入类似人类画家创作的"草图→精修"范式,模型可在后续步骤中 retroactively 修正先前生成的 token,从根本上解决 AR 模型的误差累积问题
  • 熵引导自适应采样
    以 token 分布的熵作为复杂度指标,动态分配生成步数——简单区域一步通过,复杂区域多步细化,实现复杂度感知的自适应计算分配
  • 统一图像/视频 tokenizer
    基于 3D 因果 VAE 设计,支持图像和视频在统一框架下 tokenize

与之前工作的区别

维度之前工作GRN
离散量化VQ/VQGAN/FSQ 等存在明显重建质量 gap;Infinity 等通过扩大词表弥补但收敛慢HBQ 通过指数衰减误差实现理论近乎无损,同维度下首次匹敌连续 VAE
AR 生成机制严格因果预测,误差累积不可逆;Masked AR 高置信 token 不可修改全局细化机制允许 retroactive 修正,突破因果限制
自适应计算扩散模型固定步数;AdaDiff 需额外网络和强化学习训练熵引导采样无需额外网络,基于模型自身置信度动态调整
误差修正Infinity 随机翻转 bit 假设错误率<30%,覆盖有限全局细化显式修正任意位置的先前错误

关键证据

  • 重建质量
    ImageNet 256×256 上 rFID = 0.56,为当前最优记录
  • 生成质量
    class-conditional gFID = 1.81,超越同等规模扩散模型
  • 扩展性
    成功 scale 至 1024×1024 文本到图像生成和 480p 文本到视频生成(2-10 秒)
  • 量化理论
    HBQ 第 j 轮量化误差上限为 1/2^j,M 轮后总误差指数级收敛(Eq. 1-3)
  • 熵引导
    以 token 熵值作为停止/继续生成的判断标准,实现"简单内容少步、复杂内容多步"
模型和方法

Hierarchical Binary Quantization (HBQ)

HBQ
一种层次化二值量化方法,将 VAE 编码后的连续特征映射到离散二进制表示,通过多轮粗到细的量化实现理论上的近无损压缩。

HBQ 的算法流程如下:

  1. 预处理: 在 VAE 编码器后添加 ~tanh(·)~ 激活函数,将特征表示 (F) 从无界范围映射到闭区间 ((-1, +1))。
  1. 多轮二值量化: 每个特征元素进行 (M) 轮二进制量化,基于二叉树桶结构。第 (i) 轮的量化中心 (c_i) 和量化标签 (q_i) 由以下公式定义:

$(c_i = \sum_{j=1}^{i-1} \frac{\delta[q_j]}{2^j})$

$(q_i = \begin{cases} 0 & \text{if } F \leq c_i \\ 1 & \text{if } F > c_i \end{cases})$

其中 (\delta(\cdot)) 为 delta 函数:当 (q_i = 0) 时输出 (-1),否则输出 (+1)。

  1. 误差特性: 第 (j) 轮的量化误差上限为 (1/2^j),呈指数衰减。因此随着轮数增加,重建误差迅速收敛,理论上可实现无损量化。
  1. 重建: 量化特征 (\hat{F}) 通过二进制标签的加权和重建:

$(\hat{F} = \sum_{j=1}^{M} \delta[q_j] \cdot 2^{-j})$

  1. 训练: 使用直通估计器(STE)将梯度回传至编码器。损失函数为重建损失、LPIPS 感知损失和 PatchGAN 判别器 GAN 损失的加权和。

关键特性:

  • 不增加 latent 通道数即可实现近无损重建
  • 粗到细(coarse-to-fine)表示不同频率信息
  • 在相同 latent 维度下,离散 tokenizer 首次达到与连续 tokenizer 相当的性能

来源:第 3.1 节,公式 (1)-(3),图 2-3

图 2:HBQ(Hierarchical Binary Quantization)分层二值量化流程 — 每轮量化误差以指数衰减
图 3:HBQ M=4 的粗到细重建示例,每轮细化恢复更多细节

全局细化机制

全局细化机制
GRN 的核心生成机制,允许模型在生成过程中像人类画家一样逐步完善和修正已生成的 token,突破传统 AR 模型的严格因果性限制。

工作方式:

  1. 问题背景: 传统 AR 模型(包括逐 token 或逐 scale 的模型)严格遵循因果预测,无法回溯修改已生成的 token,导致多步生成中误差累积。即使 MaskGIT 等并行解码模型,高置信度 token 一旦生成就不可修改。
  1. 核心思想: GRN 在 HBQ 的 latent 空间上执行全局细化,模型可以在后续步骤中回溯性地(retroactively)修改之前生成的 token,实现整体性的错误修正。
  1. 类比: 论文将其类比为人类画家作画——不是一次性完成,而是通过多轮迭代逐步完善作品,随时修正之前的不当之处。
  1. 与现有方法的区别:
  • Infinity [hanjInfinity] 引入随机翻转 bitwise token 的自我修正,但假设错误率低于 30%,覆盖模式有限
  • GRN 的全局细化机制是系统性的、不受错误分布限制的修正能力

来源:第 1 节引言,第 3.2 节

熵引导采样

熵引导采样
一种复杂度感知的自适应步数生成策略,根据 token 的不确定性(熵)动态分配计算资源,实现"简单样本快速生成,复杂样本精细生成"。

策略细节:

  1. 核心思想: 不同样本的生成复杂度不同,统一分配计算步骤是低效的。通过监控 token 的熵值,模型可以判断哪些区域需要更多细化步骤。
  1. 执行方式:
  • 高熵 token(不确定性高):分配更多细化步骤,确保生成质量
  • 低熵 token(置信度高):快速通过,减少不必要的计算
  1. 优势:
  • 实现复杂度感知的自适应步数生成(complexity-aware adaptive-step generation)
  • 不牺牲视觉质量的前提下提升效率
  • 克服了扩散模型"一刀切"固定步数的局限
  1. 与扩散模型对比: 扩散模型通过 MSE 优化,缺乏显式似然估计,只能使用固定步数。GRN 通过 token 级似然估计实现真正的自适应计算分配。

来源:摘要,第 1 节引言,第 3.2 节

训练

Visual Tokenizer 训练

  • 架构基础
    采用 Wan 2.1 的 3D causal VAE 设计,统一处理图像和视频。编码器后接 tanh 激活,将特征映射到 (-1, +1) 区间,再通过 HBQ 量化为离散二进制标签 {q_1, ..., q_M}。
  • 梯度回传
    使用 Straight-Through Estimator (STE) 将梯度回传至编码器,这是离散 tokenizer 训练的常见做法。
  • 损失函数(加权组合) ::
  • 重建损失 (Reconstruction Loss):λ_recons
  • LPIPS 感知损失:λ_LPIPS
  • GAN 损失 (PatchGAN Discriminator):λ_GAN
  • 具体权重配置 ::
  • 图像专用 tokenizer:λ_recons=1.0, λ_LPIPS=1.0, λ_GAN=0.3
  • 联合图像-视频 tokenizer:λ_recons=1.0, λ_LPIPS=0.2, λ_GAN=0.005
  • 训练数据
    图像 tokenizer 在 OpenImages 上训练;联合 tokenizer 在公开图像+视频数据集组合上训练。

来源:§3.1, §4.1, Table 1/2

生成模型 (GRN) 训练

  • 训练范式
    基于 HBQ 离散 latent 空间的自回归 refinement。每轮迭代从均匀分布随机采样随机 token Y_rand 和选择比例 l_t,构造输入 F_t(部分真实 token + 部分随机 token)。
  • 损失函数
    标准 Cross-Entropy (CE) 损失,预测 ground-truth token:

$(\mathcal{L} = -\mathbf{E}\left[\frac{1}{N}\sum_{i=0}^{N} \log p(y_i \mid F_t, cond)\right])$

  • 条件注入 ::
  • Class-to-Image (C2I):in-context class conditioning
  • Text-to-Image (T2I):in-context self-attention(非 adaln-zero)
  • 训练细节 (C2I)
    ImageNet 上训练 600 epochs;学习率 2e-4(恒定);10% 条件随机丢弃用于 Classifier-Free Guidance。
  • 训练细节 (T2I)
    256 分辨率预训练 150K iterations(batch size ~15400, lr=2e-4);1024 分辨率微调 60K iterations(batch size 2048, lr=2e-5)。
  • 模型变体 ::
  • GRN_ind:将 M 维二进制编码为 INT 标量(K=2^M 类)
  • GRN_bit:直接预测二进制位(K=2 类)
  • 复杂度感知采样
    推理阶段使用熵引导调度函数动态控制 l_t,实现自适应步数生成。熵计算:

$(H(Y_t) = \frac{1}{N}\cdot\frac{1}{\log_2 K}\sum_{i=0}^{N}\sum_{j=0}^{K} -p(y_{(i,j)} \mid F_{t-1}, cond) \cdot \log_2 p(y_{(i,j)} \mid F_{t-1}, cond))$

来源:§3.2, §4.2, §4.3, Eq. 7/8/9

实验

实验设置和评估基准

任务数据集分辨率训练设置
ImageNet C2IImageNet256×256600 epochs, batch=1024, lr=2e-4
Text-to-Image公开数据集 + 高质量私有数据256→1024150K iter (256p) + 60K iter (1024p)
Text-to-Video~40M 视频片段192→480p, 2-10秒150K iter (192p) + 9K iter (480p)

对比的 Baseline 方法

  • Diffusion/Flow: DiT, SiT, REPA, RAE, JiT, MAR, SD3 Medium, FLUX.1-Dev, SD3.5-Large
  • Hybrid: BitDance-H-1x
  • AR 模型: LlamaGen, MaskGIT, VAR, RandAR-XXL, Infinity, Emu3, Nova, InfinityStar
  • T2I: PixArt-α, JanusFlow, Lumina-Image-2.0, Show-o2, Z-Image-Turbo, HiDream, Qwen-Image, BAGEL
  • T2V: AnimateDiff-V2, VideoCrafter-2.0, OpenSora V1.2, Show-1, URSA, CogVideoX-5B, HunyuanVideo, Wan 2.1

评估指标

指标含义关键结果
rFID重建 FID (reconstruction quality)0.56 (ImageNet 256×256)
gFID / FID生成 FID (generation quality)1.81 (GRN-G, 2B params)
ISInception Score299.0 (GRN-G)
LPIPS感知相似度0.13 (tokenizer)
PSNR峰值信噪比23.01 (image), 33.98 (video, 64ch)
rFVD重建 FVD (video)30.1 (video tokenizer, tuned λ_GAN)
GenEval OverallT2I 综合评测0.76 (2B model)
VBench OverallT2V 综合评测82.99 (2B model, with prompt rewriting)

关键实验结果

  • Tokenizer: HBQ (M=4) 在 ImageNet 256×256 上达到 rFID 0.56,超越 SD-VAE (0.87)、RAE (0.62)、VAR (0.85) 等连续/离散 tokenizer,压缩率提升 4×
  • C2I: GRN-G (2B) 达到 FID 1.81 / IS 299.0,超越 DiT-XL/2 (2.27)、SiT-XL/2 (2.06)、JiT-G/16 (1.82)、VAR-d30 (1.92)、BitDance-H-1x (1.24)
  • T2I: GRN (2B, 80M 数据) GenEval Overall 0.76,优于同规模 SD3 Medium (0.62) 和 Infinity (0.71)
  • T2V: GRN (2B) VBench Overall 82.99,超越 CogVideoX-5B (81.61)、HunyuanVideo (83.24 但 13B)、Nova (80.12)、Emu3 (80.96)

消融实验

  • Predict Indices vs. Bits: GRNind-B FID 3.56 vs GRNbit-B FID 3.63;GRNbit-L FID 2.47 优于 GRNind-L FID 2.64
  • Global Refinement: 对比 Mask-based 方法 (FID 185.62→18.13),Refine 机制显著优于固定 token 的 MaskGIT/BERT 范式
  • Complexity-Aware Sampling: 62.7% 样本使用 <50 步,约 200 张图仅用 20 步;FID 从 3.6 微降至 3.8 但节省大量计算

来源: arXiv:2604.13030v1, Sections 4.1–4.5, Tables 1–7

效果

定量结果总结

  • ImageNet C2I 结果:GRN-G 在 256×256 上同时创下重建 (rFID 0.56) 和生成 (gFID 1.81) 的新纪录 [来源: Abstract, §1]
  • T2I 与 T2V 结果:GRN 在同等规模下展现优越性能,可生成 1024×1024 图像和 480p 2-10 秒视频 [来源: §1, §4.3, §4.4]
任务模型关键指标数值
ImageNet 256×256 C2IGRN-G (2B params)FID ↓ / IS ↑1.81 / 299.0
Tokenizer (ImageNet 256×256)HBQ (M=4)rFID ↓0.56
Text-to-ImageGRN (2B, 80M 数据)GenEval Overall ↑0.76
Text-to-VideoGRN (2B)VBench Overall ↑82.99

与 SOTA 方法的详细对比

ImageNet 256×256 Class-Conditional 生成

方法参数量FID ↓IS ↑
GRN-G (Ours)2B1.81299.0
LDM [1]-15.51158.71
DiT-XL/2 [2]675M9.60121.5
VAR [3]2B3.30274.4
MAR-H [4]943M1.98283.5
Infinity [5]2B1.98296.0

GRN-G 以 2B 参数量达到 FID 1.81,超越 MAR-H (1.98) 和 Infinity (1.98),IS 299.0 亦为最高 [来源: §4.2, Table 1]

Tokenizer 重建质量 (rFID)

Tokenizer类型rFID ↓
HBQ (M=4, Ours)离散0.56
SD-VAE [6]连续0.87
RAE [7]连续0.62
VAR [3]离散0.85
FSQ [8]离散0.78

HBQ 首次使离散 tokenizer 在相同 latent 维度下达到与连续 tokenizer 相当甚至更好的重建质量 [来源: §3.1, §4.1, Table 1]

Text-to-Image (GenEval)

方法规模GenEval Overall ↑
GRN (Ours)2B, 80M 数据0.76
SD3 Medium [9]-0.62
Infinity [5]-0.71

GRN 在 GenEval 上显著优于 SD3 Medium (+22.6%) 和 Infinity (+7.0%) [来源: §4.3, Table 2]

Text-to-Video (VBench)

方法规模VBench Overall ↑
GRN (Ours)2B82.99
CogVideoX-5B [10]5B81.61
Nova [11]-80.12
Emu3 [12]-80.96

GRN 以 2B 参数量超越 5B 规模的 CogVideoX-5B [来源: §4.4, Table 3]

消融实验结果

Predict Indices vs Bits

变体配置FID ↓
GRNind-B预测索引3.56
GRNbit-B预测比特3.63

预测索引 (indices) 略优于预测比特 (bits),FID 差距 0.07 [来源: §4.2, Table 4]

Global Refinement 机制

配置FID ↓说明
无 Global Refinement (Mask-based)185.62基线方法
加入 Global Refinement18.13提升约 10×

Global Refinement 机制将 FID 从 185.62 降至 18.13,验证了全局修正对缓解误差累积的关键作用 [来源: §4.2, Table 4]

Complexity-Aware Sampling (Entropy-Guided)

指标数值
使用 <50 步的样本比例62.7%
平均步数<50 (多数样本)

熵引导的自适应采样使 62.7% 的样本可在少于 50 步内完成生成,实现复杂度感知的计算分配 [来源: §4.2, Table 4]

HBQ 量化轮数 M 的影响

MrFID ↓说明
M=2较高量化误差大
M=40.56最佳平衡点
M=6接近 M=4收益递减

M=4 时重建质量已接近连续 VAE,继续增加 M 收益有限 [来源: §4.1, Figure 4]

关键结论

  1. HBQ 解决了离散 tokenizer 的重建瓶颈,rFID 0.56 超越现有连续和离散方法
  2. GRN 在 ImageNet C2I、T2I、T2V 三个任务上均达到或超越同等规模 SOTA
  3. Global Refinement 是核心创新,将无修正基线的 FID 从 185.62 降至 18.13
  4. Complexity-Aware Sampling 使多数样本 (62.7%) 可用 <50 步完成,提升推理效率
  5. 预测索引 (indices) 策略略优于预测原始比特 (bits)
结论

论文主要结论

  1. GRN 通过全局细化机制和复杂度感知生成,在视觉合成任务上实现了 SOTA 性能,ImageNet 256×256 上 rFID 0.56、gFID 1.81,显著优于现有扩散模型和自回归模型
  2. HBQ 首次使离散视觉 tokenizer 达到与连续 tokenizer 相当的重建质量,量化误差理论上随轮次指数衰减,实现了近无损压缩
  3. 复杂度感知生成通过熵引导采样动态分配计算资源,简单样本步数少、复杂样本步数多,不牺牲视觉质量
  4. GRN 具备良好的任务泛化性和可扩展性,成功扩展到 1024×1024 T2I 和 480p T2V 任务

核心贡献总结

贡献关键内容证据
GRN 框架全局细化机制 + 复杂度感知生成论文§1, §3.2-3.3
HBQ 量化分层二进制量化,误差指数衰减论文§3.1, Eq.1-3, Fig.2-3
SOTA 结果ImageNet rFID 0.56, gFID 1.81论文§1, §4
扩展性T2I 1024×1024, T2V 480p 2-10s论文§1, §4.3-4.4

对未来研究的启示

  1. 离散表示的复兴:HBQ 证明离散 tokenizer 不必劣于连续表示,未来可能推动更多基于离散潜空间的生成模型研究,而非一味追求连续扩散
  2. 自适应计算成为标配:复杂度感知生成提示未来视觉模型应像 LLM 一样具备"思考深度"的自适应能力,而非固定步数推理
  3. 全局细化机制的泛化:GRN 的"绘画式"全局修正可扩展到其他序列生成任务(如音频、3D),突破自回归的因果限制
  4. 效率与质量的重新权衡:GRN 在同等规模下优于扩散模型,可能引发对扩散范式主导地位的重新评估,特别是在资源受限场景
  5. 开源生态:代码和模型已发布( https://github.com/MGenAI/GRN ),为社区复现和改进提供基础
收获

技术启示

  • HBQ 的指数衰减误差保证:Hierarchical Binary Quantization 通过二叉树逐轮量化,每轮误差上界为 (1/2^j),理论上可实现近乎无损的离散压缩,首次让离散 tokenizer 在同等 latent 维度下匹敌连续表示(rFID 0.56)。这揭示了"分层粗到细"是连接离散与连续表示的桥梁。
  • 全局细化 = 非因果自校正:GRN 突破了传统 AR 模型的严格因果性约束,允许模型像人类画家一样"回头修改"已生成的 token,从根本上解决了 AR 模型的误差累积问题。
  • 熵作为计算复杂度的代理:利用 token 分布的熵动态决定采样步数,实现了"简单样本少步、复杂样本多步"的自适应计算分配,无需额外网络或强化学习训练。
  • AR+Diffusion 的范式融合:GRN 保留了 AR 的似然建模和自适应计算优势,同时通过全局细化获得了 Diffusion 的迭代修正能力,可能是下一代视觉生成的基础架构。

对视觉生成模型发展的思考

  • 离散 token 的复兴:此前普遍认为连续 VAE 优于离散 tokenizer,HBQ 证明离散表示在足够精细的量化策略下可以达到同等质量,且更利于 AR 生成。
  • 从"一步定终身"到"迭代修正":MaskGIT 等并行 AR 模型一旦确定高置信 token 便不可更改,GRN 的全局细化机制表明"可逆性"是提升生成质量的关键。
  • 计算效率的新维度:Diffusion 的固定步数 vs AR 的变长序列 vs GRN 的熵引导自适应步数——未来的效率优化应从"减少总步数"转向"按复杂度分配步数"。
  • 错误累积的系统性解决:Infinity 等方法的自校正假设误差<30%,GRN 通过全局细化不依赖此类假设,更具鲁棒性。

可能的实践价值或应用方向

  • 实时/边缘设备生成:自适应步数意味着简单图像可用极少步数生成,适合移动端实时应用。
  • 视频生成:HBQ 统一了图像和视频 tokenization,GRN 在 Wan 2.1 的 3D causal VAE 基础上扩展,480p 2-10 秒视频生成已验证。
  • 交互式编辑:全局细化机制天然支持"草图→精修"的交互式创作流程,类似数字绘画软件的图层修正。
  • 多模态统一:离散 token 便于与 LLM 对齐,GRN 可能成为视觉-语言统一生成的基础组件。
  • 压缩与传输:HBQ 的粗到细特性支持渐进式传输,先传低精度预览、再传细化层。