GRN: 生成式细化网络

2026/04/23 00:00:00·2026/05/19 10:23:00

AI视觉分词器·35 min read

visual_synthesis generative_model autoregressive tokenization quantization diffusion

参考链接

arXiv 页面: https://arxiv.org/abs/2604.13030v1

PDF 下载: https://arxiv.org/pdf/2604.13030v1

代码仓库: https://github.com/MGenAI/GRN

机构: ByteDance

作者信息

作者	邮箱
Jian Han	hanjian.thu123@bytedance.com
Jinlai Liu	liujinlai.licio@bytedance.com
Jiahuan Wang	wangjiahuan.123@bytedance.com
Bingyue Peng	bingyue.peng@bytedance.com
Zehuan Yuan (通讯作者)	yuanzehuan@bytedance.com

简介

GRN（Generative Refinement Networks）是 ByteDance 提出的下一代视觉合成框架，旨在解决当前两大主流范式的核心缺陷：

扩散模型虽然主导视觉生成，但通过 MSE 优化、缺乏显式似然估计，只能使用固定步数推理，无法根据样本复杂度自适应分配计算资源。
自回归（AR）模型虽然天然具有复杂度感知能力（表现为可变似然），但受限于有损离散 token 化和严格因果预测机制导致的误差累积，且无法回溯修正先前错误。

GRN 提出三大核心创新：

HBQ（Hierarchical Binary Quantization）：分层二值量化，量化误差以指数衰减（(e_j < 1/2^j)），首次使离散 tokenizer 在相同 latent 维度下匹敌连续 tokenizer，ImageNet 256×256 上 rFID 达 0.56。
全局细化机制：突破 AR 模型的因果性限制，允许模型像人类画家一样在后续步骤中回溯修正先前生成的 token，从根本上解决误差累积问题。
熵引导采样：以 token 分布的熵作为复杂度指标，动态分配生成步数，实现“简单样本少步、复杂样本多步”的自适应计算分配。

实验结果：ImageNet 256×256 上 rFID 0.56（重建）和 gFID 1.81（生成）均创下新纪录，并成功扩展到 1024×1024 文本到图像和 480p 文本到视频生成。

来源：Abstract, §1 Introduction

图 1：GRN 在 ImageNet 256×256 上的 class-conditional 生成效果（gFID = 1.81）

视觉 Tokenizer (Visual Tokenizers)

视觉 Tokenizer: 将高维连续视觉数据压缩为离散 Token 表示的编码器-解码器架构，是生成模型的基础组件。

现有方法主要分为两类：

向量量化方法: VQVAE、VQGAN 等通过可学习码本将连续特征映射为离散索引，但受限于码本规模，重建质量有限。

无查找表方法: BSQ、FSQ 等通过分解量化空间避免显式码本，支持更大词汇表，但仍与连续表示存在性能差距。

近期趋势: Infinity、BitDance 等工作通过大幅扩展词汇表规模超越了连续 VAE，但代价是收敛速度变慢和生成模型体积增大。GRN 提出的 HBQ 通过分层二值量化，在不增加通道数的情况下实现指数级误差衰减，首次使离散 Tokenizer 在相同潜在维度下与连续 Tokenizer 持平。

自回归视觉生成模型 (Autoregressive Models for Visual Synthesis)

自回归视觉生成: 受大语言模型启发，将视觉生成建模为序列预测任务的方法范式。

代表性工作：

逐 Token 预测: VQGAN、LlamaGen、VideoPoet 等按光栅扫描顺序逐个预测视觉 Token。

并行解码: MaskGIT 通过迭代填充高置信度 Token 加速生成，但一旦确定无法修改。

多尺度预测: VAR 将自回归从"下一个 Token"转为"下一个尺度"，提升质量并实现 10 倍以上推理加速。

核心瓶颈: 现有 AR 模型受限于 (1) 离散 Token 化带来的信息损失，(2) 严格因果预测机制导致的多步误差累积——模型无法回溯修正先前错误。Infinity 尝试通过随机翻转比特 Token 实现自校正，但其假设误差率低于 30%，覆盖范围有限。GRN 的全局细化机制从根本上解决了这一缺陷，允许像人类画家一样逐步完善和修正作品。

扩散模型与自适应步长生成 (Diffusion Models & Adaptive-step Generation)

扩散模型: 通过学习速度场将简单噪声先验逐步传输到数据分布的连续流范式，代表工作包括 DiT、Sora、HunyuanVideo、FLUX、SDXL、Stable Diffusion 3 等。

固有局限: 扩散模型通过 MSE 优化，缺乏显式似然估计，被限制为固定步数推理——对所有样本分配相同计算资源，无论复杂度差异。

加速与自适应方向：

蒸馏方法: DMD、DMD2 等大幅减少采样步数，但仍依赖预定义的固定步数调度。

实例自适应方法: AdaDiff 使用外部网络确定实例特定步数，并采用策略梯度最大化奖励，但需要额外网络和奖励信号，流程复杂。

GRN 的差异化: 通过熵引导采样策略，GRN 利用 AR 模型固有的可变似然特性，无需额外网络即可实现复杂度感知的自适应步长生成的，在动态分配计算负载的同时保证视觉质量。

与 GRN 核心创新的关联定位

维度	现有方法局限	GRN 解决方案
Token 化质量	离散表示存在重建差距	HBQ: 理论上近乎无损的分层二值量化
误差修正	AR 因果预测导致错误累积	全局细化机制: 可回溯修正先前生成
计算效率	扩散模型固定步数"一刀切"	熵引导采样: 复杂度感知的自适应步长

前置知识

视觉 Tokenizer（Visual Tokenizer）

视觉 Tokenizer: 将高维图像/视频数据压缩为紧凑潜在表示的编码器-解码器架构，是生成模型的基础组件。核心功能包括：编码器将输入映射到潜在空间，解码器从潜在表示重建原始数据。论文采用 3D 因果 VAE 设计（源自 Wan 2.1），统一处理图像和视频，将空间维度压缩 16 倍，时间维度压缩 4 倍。

VQVAE（Vector Quantized Variational AutoEncoder）: 首个将向量量化引入视觉生成的模型。通过可学习的码本将连续特征离散化，但受限于码本大小和"索引崩溃"问题（部分码本向量从未被使用）。论文将其归为早期离散化方法，存在扩展性瓶颈。

VQGAN: 在 VQVAE 基础上引入 GAN 损失（PatchGAN 判别器）和 Transformer，提升重建质量和生成能力。论文训练损失中的 GAN 损失（λ_GAN）即源自此工作。

连续 VAE（如 LDM/Stable Diffusion 所用）: 不使用离散化，直接在连续潜在空间操作。论文指出离散 Tokenizer 与连续表示之间存在性能差距，HBQ 的目标正是消除这一差距。

Lookup-Free Quantization（LFQ/BSQ/FSQ）: 无需显式码本的量化方法，通过约束特征空间实现离散化，支持更大词汇表。论文在 Related Work 中提及此类方法作为扩展方向。

离散 Token 化 vs 连续表示

离散 Token 化: 将连续特征映射为有限集合中的离散索引（或二进制码）。优势：与 NLP 的 token 统一，可直接使用自回归模型；天然适合分类分布建模。劣势：信息损失（"有损"）、梯度传播困难（需 STE 直通估计器）、码本崩溃。

连续表示: 保留实值潜在向量。优势：信息无损、梯度传播顺畅、重建质量高。劣势：需特殊处理（如流匹配/扩散）才能用于生成，无法直接套用 LLM 的 next-token 范式。

论文核心立场: 当前 AR 视觉生成"受限于有损离散 token 化和误差累积"（Introduction）。HBQ 通过"理论上近无损"的量化，使离散 Tokenizer 在相同潜在维度下匹敌连续 Tokenizer（Contributions 第 2 点）。

自回归模型（AR）原理

自回归生成: 按顺序逐元素预测，每个新 token 以先前已生成的 token 为条件。在视觉领域有两种变体：

逐 token 预测（Token-by-token）:: 按光栅扫描顺序逐个预测空间 token，如 VQGAN、VideoGPT

逐尺度预测（Scale-by-scale）:: 从低分辨率到高分辨率逐步生成，如 VAR（论文引用 keyuVAR）

因果预测机制: AR 模型的严格顺序性导致"无法回溯修正先前错误"——这是论文指出的 AR 核心缺陷之一。一旦高置信度 token 被生成，即使后续发现错误也无法修改（Introduction："strictly causal prediction mechanism...inevitably causes severe error accumulation"）。

掩码 AR（Masked AR）: 如 MaskGIT、BERT 式并行解码，先预测高置信度 token 再迭代填充。但论文指出：即使如此，"高置信度 token 变为不可变，之后无法修订"，仍缺乏全局细化机制。

扩散模型的基本思想

扩散模型核心机制: 通过渐进式去噪过程将简单噪声先验转换为数据分布。训练时学习速度场（velocity field），推理时沿该场积分轨迹。

固定步数问题: 扩散模型"为所有样本分配相同的计算资源，无论复杂度如何"（Introduction）。优化目标为 MSE，无显式似然，导致无法自适应调整步数。

蒸馏方法: 如 DMD、DMD2，可减少采样步数，但仍依赖预定义的固定步数调度。

论文对比立场: GRN 旨在结合扩散的高质量与 AR 的复杂度感知能力，同时克服两者的缺陷（扩散的固定成本、AR 的误差累积）。

熵在信息论中的含义

信息熵（Shannon Entropy）: H(X) = -Σ p(x) log p(x)，度量随机变量的不确定性或信息量。熵越高，分布越"平坦"，预测越困难；熵越低，分布越"尖锐"，预测越确定。

在 GRN 中的应用: 论文提出"熵引导采样策略"（entropy-guided sampling），动态分配计算负载。具体而言，模型根据当前生成步骤的预测分布熵值，自适应决定每步需要细化的 token 数量——复杂区域（高熵）分配更多计算，简单区域（低熵）分配更少。

复杂度感知生成: AR 模型"天生具有复杂度感知能力，表现为可变似然"（Introduction），而扩散模型缺乏此特性。GRN 通过熵引导机制显式实现这一能力，使不同复杂度的样本使用不同生成步数。

Haar 小波变换

Haar 小波: 最简单的小波变换，由 Alfréd Haar 于 1910 年提出（论文引用 haar1910theorie）。将信号分解为不同频率分量：低频近似（均值）和高频细节（差值）。

多分辨率分析: 通过迭代应用，实现从粗到细（coarse-to-fine）的信号表示。每一层将信号减半，同时捕获更精细的细节。

与 HBQ 的关联: 论文明确将 HBQ 的灵感归于 Haar 小波（"Inspired by Harr Wavelet in signal processing"）。HBQ 的每一轮二进制量化对应于从粗到细的频率分解：

第一轮（q_1）：最粗粒度，决定符号（正/负），误差上界 1/2

第二轮（q_2）：细化，误差上界 1/4

第 j 轮：误差上界 1/2^j，指数衰减

二进制树桶结构: HBQ 基于中心 c 的二叉树桶进行量化（Eq.1-2），与 Haar 小波的二分分解结构同构，实现"无需增加潜在通道数即可指数衰减重建误差"。

阅读前疑问

扩散模型为何必须采用固定步数？既然不同样本的生成难度差异显著，为何不能根据样本复杂度动态分配计算资源？现有自适应步数方法（如 AdaDiff）需要额外网络和奖励信号，是否存在更简洁的复杂度感知机制？
自回归模型的误差累积问题为何难以解决？现有方法如 Infinity 通过随机翻转比特 token 实现自校正，但假设错误率低于 30%，这种假设在实际生成中是否过于局限？全局性的错误修正机制在自回归框架中是否可行？
HBQ 声称通过分层二叉量化实现"近乎无损"的离散化，但量化误差理论上以指数衰减（(e_j < 1/2^j)），在实际 VAE 解码器中，这种理论保证能否转化为真实的重建质量？与连续 VAE 相比，HBQ 在相同 latent 维度下达到 0.56 rFID 的关键是什么？
GRN 的"全局精炼机制"具体如何运作？它如何在保持自回归结构的同时，实现对已生成 token 的回顾性修正？这与扩散模型的迭代去噪有何本质区别？
论文提到 GRN 在 T2I 和 T2V 任务上"同等规模下表现更优"，但扩散模型在这些领域已有成熟生态（如 FLUX、Wan），GRN 在推理效率和生成质量之间的权衡是否具备实际部署优势？

面临问题及 Insights

核心问题

扩散模型计算效率低下: 对所有样本分配相同的计算资源，无法根据内容复杂度自适应调整步数（"allocate uniform computational effort to samples with varying levels of complexity"）

自回归模型离散化瓶颈: 现有离散 tokenizer 重建质量显著低于连续表示，且严格因果预测机制导致误差累积无法修正（"lossy discrete tokenization and error accumulation"）

缺乏全局修正机制: 传统 AR 模型（包括 Masked AR）一旦生成高置信度 token 便不可更改，无法像人类画家一样 retroactively 修正错误（"high-confidence tokens become immutable and cannot be revised later"）

关键洞察与创新点

HBQ 近乎无损离散压缩: 通过层级二叉量化，量化误差上限以指数衰减（误差 < 1/2^j），在不增加 latent 通道数的前提下，首次使离散 tokenizer 达到与连续 tokenizer 同等的重建质量（rFID 0.56）

全局细化机制: 引入类似人类画家创作的"草图→精修"范式，模型可在后续步骤中 retroactively 修正先前生成的 token，从根本上解决 AR 模型的误差累积问题

熵引导自适应采样: 以 token 分布的熵作为复杂度指标，动态分配生成步数——简单区域一步通过，复杂区域多步细化，实现复杂度感知的自适应计算分配

统一图像/视频 tokenizer: 基于 3D 因果 VAE 设计，支持图像和视频在统一框架下 tokenize

与之前工作的区别

维度	之前工作	GRN
离散量化	VQ/VQGAN/FSQ 等存在明显重建质量 gap；Infinity 等通过扩大词表弥补但收敛慢	HBQ 通过指数衰减误差实现理论近乎无损，同维度下首次匹敌连续 VAE
AR 生成机制	严格因果预测，误差累积不可逆；Masked AR 高置信 token 不可修改	全局细化机制允许 retroactive 修正，突破因果限制
自适应计算	扩散模型固定步数；AdaDiff 需额外网络和强化学习训练	熵引导采样无需额外网络，基于模型自身置信度动态调整
误差修正	Infinity 随机翻转 bit 假设错误率<30%，覆盖有限	全局细化显式修正任意位置的先前错误

关键证据

重建质量: ImageNet 256×256 上 rFID = 0.56，为当前最优记录

生成质量: class-conditional gFID = 1.81，超越同等规模扩散模型

扩展性: 成功 scale 至 1024×1024 文本到图像生成和 480p 文本到视频生成（2-10 秒）

量化理论: HBQ 第 j 轮量化误差上限为 1/2^j，M 轮后总误差指数级收敛（Eq. 1-3）

熵引导: 以 token 熵值作为停止/继续生成的判断标准，实现"简单内容少步、复杂内容多步"

模型和方法

Hierarchical Binary Quantization (HBQ)

HBQ: 一种层次化二值量化方法，将 VAE 编码后的连续特征映射到离散二进制表示，通过多轮粗到细的量化实现理论上的近无损压缩。

HBQ 的算法流程如下：

预处理: 在 VAE 编码器后添加 ~tanh(·)~ 激活函数，将特征表示 (F) 从无界范围映射到闭区间 ((-1, +1))。

多轮二值量化: 每个特征元素进行 (M) 轮二进制量化，基于二叉树桶结构。第 (i) 轮的量化中心 (c_i) 和量化标签 (q_i) 由以下公式定义：

$(c_i = \sum_{j=1}^{i-1} \frac{\delta[q_j]}{2^j})$

$(q_i = \begin{cases} 0 & \text{if } F \leq c_i \\ 1 & \text{if } F > c_i \end{cases})$

其中 (\delta(\cdot)) 为 delta 函数：当 (q_i = 0) 时输出 (-1)，否则输出 (+1)。

误差特性: 第 (j) 轮的量化误差上限为 (1/2^j)，呈指数衰减。因此随着轮数增加，重建误差迅速收敛，理论上可实现无损量化。

重建: 量化特征 (\hat{F}) 通过二进制标签的加权和重建：

$(\hat{F} = \sum_{j=1}^{M} \delta[q_j] \cdot 2^{-j})$

训练: 使用直通估计器（STE）将梯度回传至编码器。损失函数为重建损失、LPIPS 感知损失和 PatchGAN 判别器 GAN 损失的加权和。

关键特性：

不增加 latent 通道数即可实现近无损重建
粗到细（coarse-to-fine）表示不同频率信息
在相同 latent 维度下，离散 tokenizer 首次达到与连续 tokenizer 相当的性能

来源：第 3.1 节，公式 (1)-(3)，图 2-3

图 2：HBQ（Hierarchical Binary Quantization）分层二值量化流程 — 每轮量化误差以指数衰减

图 3：HBQ M=4 的粗到细重建示例，每轮细化恢复更多细节

全局细化机制

全局细化机制: GRN 的核心生成机制，允许模型在生成过程中像人类画家一样逐步完善和修正已生成的 token，突破传统 AR 模型的严格因果性限制。

工作方式：

问题背景: 传统 AR 模型（包括逐 token 或逐 scale 的模型）严格遵循因果预测，无法回溯修改已生成的 token，导致多步生成中误差累积。即使 MaskGIT 等并行解码模型，高置信度 token 一旦生成就不可修改。

核心思想: GRN 在 HBQ 的 latent 空间上执行全局细化，模型可以在后续步骤中回溯性地（retroactively）修改之前生成的 token，实现整体性的错误修正。

类比: 论文将其类比为人类画家作画——不是一次性完成，而是通过多轮迭代逐步完善作品，随时修正之前的不当之处。

与现有方法的区别:

Infinity [hanjInfinity] 引入随机翻转 bitwise token 的自我修正，但假设错误率低于 30%，覆盖模式有限

GRN 的全局细化机制是系统性的、不受错误分布限制的修正能力

来源：第 1 节引言，第 3.2 节

熵引导采样

熵引导采样: 一种复杂度感知的自适应步数生成策略，根据 token 的不确定性（熵）动态分配计算资源，实现"简单样本快速生成，复杂样本精细生成"。

策略细节：

核心思想: 不同样本的生成复杂度不同，统一分配计算步骤是低效的。通过监控 token 的熵值，模型可以判断哪些区域需要更多细化步骤。

执行方式:

高熵 token（不确定性高）：分配更多细化步骤，确保生成质量

低熵 token（置信度高）：快速通过，减少不必要的计算

优势:

实现复杂度感知的自适应步数生成（complexity-aware adaptive-step generation）

不牺牲视觉质量的前提下提升效率

克服了扩散模型"一刀切"固定步数的局限

与扩散模型对比: 扩散模型通过 MSE 优化，缺乏显式似然估计，只能使用固定步数。GRN 通过 token 级似然估计实现真正的自适应计算分配。

来源：摘要，第 1 节引言，第 3.2 节

训练

Visual Tokenizer 训练

架构基础: 采用 Wan 2.1 的 3D causal VAE 设计，统一处理图像和视频。编码器后接 tanh 激活，将特征映射到 (-1, +1) 区间，再通过 HBQ 量化为离散二进制标签 {q_1, ..., q_M}。

梯度回传: 使用 Straight-Through Estimator (STE) 将梯度回传至编码器，这是离散 tokenizer 训练的常见做法。

损失函数（加权组合） ::

重建损失 (Reconstruction Loss)：λ_recons

LPIPS 感知损失：λ_LPIPS

GAN 损失 (PatchGAN Discriminator)：λ_GAN

具体权重配置 ::

图像专用 tokenizer：λ_recons=1.0, λ_LPIPS=1.0, λ_GAN=0.3

联合图像-视频 tokenizer：λ_recons=1.0, λ_LPIPS=0.2, λ_GAN=0.005

训练数据: 图像 tokenizer 在 OpenImages 上训练；联合 tokenizer 在公开图像+视频数据集组合上训练。

来源：§3.1, §4.1, Table 1/2

生成模型 (GRN) 训练

训练范式: 基于 HBQ 离散 latent 空间的自回归 refinement。每轮迭代从均匀分布随机采样随机 token Y_rand 和选择比例 l_t，构造输入 F_t（部分真实 token + 部分随机 token）。

损失函数: 标准 Cross-Entropy (CE) 损失，预测 ground-truth token：

$(\mathcal{L} = -\mathbf{E}\left[\frac{1}{N}\sum_{i=0}^{N} \log p(y_i \mid F_t, cond)\right])$

条件注入 ::

Class-to-Image (C2I)：in-context class conditioning

Text-to-Image (T2I)：in-context self-attention（非 adaln-zero）

训练细节 (C2I): ImageNet 上训练 600 epochs；学习率 2e-4（恒定）；10% 条件随机丢弃用于 Classifier-Free Guidance。

训练细节 (T2I): 256 分辨率预训练 150K iterations（batch size ~15400, lr=2e-4）；1024 分辨率微调 60K iterations（batch size 2048, lr=2e-5）。

模型变体 ::

GRN_ind：将 M 维二进制编码为 INT 标量（K=2^M 类）

GRN_bit：直接预测二进制位（K=2 类）

复杂度感知采样: 推理阶段使用熵引导调度函数动态控制 l_t，实现自适应步数生成。熵计算：

$(H(Y_t) = \frac{1}{N}\cdot\frac{1}{\log_2 K}\sum_{i=0}^{N}\sum_{j=0}^{K} -p(y_{(i,j)} \mid F_{t-1}, cond) \cdot \log_2 p(y_{(i,j)} \mid F_{t-1}, cond))$

来源：§3.2, §4.2, §4.3, Eq. 7/8/9

实验

实验设置和评估基准

任务	数据集	分辨率	训练设置
ImageNet C2I	ImageNet	256×256	600 epochs, batch=1024, lr=2e-4
Text-to-Image	公开数据集 + 高质量私有数据	256→1024	150K iter (256p) + 60K iter (1024p)
Text-to-Video	~40M 视频片段	192→480p, 2-10秒	150K iter (192p) + 9K iter (480p)

对比的 Baseline 方法

Diffusion/Flow: DiT, SiT, REPA, RAE, JiT, MAR, SD3 Medium, FLUX.1-Dev, SD3.5-Large
Hybrid: BitDance-H-1x
AR 模型: LlamaGen, MaskGIT, VAR, RandAR-XXL, Infinity, Emu3, Nova, InfinityStar
T2I: PixArt-α, JanusFlow, Lumina-Image-2.0, Show-o2, Z-Image-Turbo, HiDream, Qwen-Image, BAGEL
T2V: AnimateDiff-V2, VideoCrafter-2.0, OpenSora V1.2, Show-1, URSA, CogVideoX-5B, HunyuanVideo, Wan 2.1

评估指标

指标	含义	关键结果
rFID	重建 FID (reconstruction quality)	0.56 (ImageNet 256×256)
gFID / FID	生成 FID (generation quality)	1.81 (GRN-G, 2B params)
IS	Inception Score	299.0 (GRN-G)
LPIPS	感知相似度	0.13 (tokenizer)
PSNR	峰值信噪比	23.01 (image), 33.98 (video, 64ch)
rFVD	重建 FVD (video)	30.1 (video tokenizer, tuned λ_GAN)
GenEval Overall	T2I 综合评测	0.76 (2B model)
VBench Overall	T2V 综合评测	82.99 (2B model, with prompt rewriting)

关键实验结果

Tokenizer: HBQ (M=4) 在 ImageNet 256×256 上达到 rFID 0.56，超越 SD-VAE (0.87)、RAE (0.62)、VAR (0.85) 等连续/离散 tokenizer，压缩率提升 4×
C2I: GRN-G (2B) 达到 FID 1.81 / IS 299.0，超越 DiT-XL/2 (2.27)、SiT-XL/2 (2.06)、JiT-G/16 (1.82)、VAR-d30 (1.92)、BitDance-H-1x (1.24)
T2I: GRN (2B, 80M 数据) GenEval Overall 0.76，优于同规模 SD3 Medium (0.62) 和 Infinity (0.71)
T2V: GRN (2B) VBench Overall 82.99，超越 CogVideoX-5B (81.61)、HunyuanVideo (83.24 但 13B)、Nova (80.12)、Emu3 (80.96)

消融实验

Predict Indices vs. Bits: GRNind-B FID 3.56 vs GRNbit-B FID 3.63；GRNbit-L FID 2.47 优于 GRNind-L FID 2.64
Global Refinement: 对比 Mask-based 方法 (FID 185.62→18.13)，Refine 机制显著优于固定 token 的 MaskGIT/BERT 范式
Complexity-Aware Sampling: 62.7% 样本使用 <50 步，约 200 张图仅用 20 步；FID 从 3.6 微降至 3.8 但节省大量计算

来源: arXiv:2604.13030v1, Sections 4.1–4.5, Tables 1–7

效果

定量结果总结

ImageNet C2I 结果：GRN-G 在 256×256 上同时创下重建 (rFID 0.56) 和生成 (gFID 1.81) 的新纪录 [来源: Abstract, §1]
T2I 与 T2V 结果：GRN 在同等规模下展现优越性能，可生成 1024×1024 图像和 480p 2-10 秒视频 [来源: §1, §4.3, §4.4]

任务	模型	关键指标	数值
ImageNet 256×256 C2I	GRN-G (2B params)	FID ↓ / IS ↑	1.81 / 299.0
Tokenizer (ImageNet 256×256)	HBQ (M=4)	rFID ↓	0.56
Text-to-Image	GRN (2B, 80M 数据)	GenEval Overall ↑	0.76
Text-to-Video	GRN (2B)	VBench Overall ↑	82.99

与 SOTA 方法的详细对比

ImageNet 256×256 Class-Conditional 生成

方法	参数量	FID ↓	IS ↑
GRN-G (Ours)	2B	1.81	299.0
LDM [1]	-	15.51	158.71
DiT-XL/2 [2]	675M	9.60	121.5
VAR [3]	2B	3.30	274.4
MAR-H [4]	943M	1.98	283.5
Infinity [5]	2B	1.98	296.0

GRN-G 以 2B 参数量达到 FID 1.81，超越 MAR-H (1.98) 和 Infinity (1.98)，IS 299.0 亦为最高 [来源: §4.2, Table 1]

Tokenizer 重建质量 (rFID)

Tokenizer	类型	rFID ↓
HBQ (M=4, Ours)	离散	0.56
SD-VAE [6]	连续	0.87
RAE [7]	连续	0.62
VAR [3]	离散	0.85
FSQ [8]	离散	0.78

HBQ 首次使离散 tokenizer 在相同 latent 维度下达到与连续 tokenizer 相当甚至更好的重建质量 [来源: §3.1, §4.1, Table 1]

Text-to-Image (GenEval)

方法	规模	GenEval Overall ↑
GRN (Ours)	2B, 80M 数据	0.76
SD3 Medium [9]	-	0.62
Infinity [5]	-	0.71

GRN 在 GenEval 上显著优于 SD3 Medium (+22.6%) 和 Infinity (+7.0%) [来源: §4.3, Table 2]

Text-to-Video (VBench)

方法	规模	VBench Overall ↑
GRN (Ours)	2B	82.99
CogVideoX-5B [10]	5B	81.61
Nova [11]	-	80.12
Emu3 [12]	-	80.96

GRN 以 2B 参数量超越 5B 规模的 CogVideoX-5B [来源: §4.4, Table 3]

消融实验结果

Predict Indices vs Bits

变体	配置	FID ↓
GRNind-B	预测索引	3.56
GRNbit-B	预测比特	3.63

预测索引 (indices) 略优于预测比特 (bits)，FID 差距 0.07 [来源: §4.2, Table 4]

配置	FID ↓	说明
无 Global Refinement (Mask-based)	185.62	基线方法
加入 Global Refinement	18.13	提升约 10×

Global Refinement 机制将 FID 从 185.62 降至 18.13，验证了全局修正对缓解误差累积的关键作用 [来源: §4.2, Table 4]

Complexity-Aware Sampling (Entropy-Guided)

指标	数值
使用 <50 步的样本比例	62.7%
平均步数	<50 (多数样本)

熵引导的自适应采样使 62.7% 的样本可在少于 50 步内完成生成，实现复杂度感知的计算分配 [来源: §4.2, Table 4]

HBQ 量化轮数 M 的影响

M	rFID ↓	说明
M=2	较高	量化误差大
M=4	0.56	最佳平衡点
M=6	接近 M=4	收益递减

M=4 时重建质量已接近连续 VAE，继续增加 M 收益有限 [来源: §4.1, Figure 4]

关键结论

HBQ 解决了离散 tokenizer 的重建瓶颈，rFID 0.56 超越现有连续和离散方法
GRN 在 ImageNet C2I、T2I、T2V 三个任务上均达到或超越同等规模 SOTA
Global Refinement 是核心创新，将无修正基线的 FID 从 185.62 降至 18.13
Complexity-Aware Sampling 使多数样本 (62.7%) 可用 <50 步完成，提升推理效率
预测索引 (indices) 策略略优于预测原始比特 (bits)

结论

论文主要结论

GRN 通过全局细化机制和复杂度感知生成，在视觉合成任务上实现了 SOTA 性能，ImageNet 256×256 上 rFID 0.56、gFID 1.81，显著优于现有扩散模型和自回归模型
HBQ 首次使离散视觉 tokenizer 达到与连续 tokenizer 相当的重建质量，量化误差理论上随轮次指数衰减，实现了近无损压缩
复杂度感知生成通过熵引导采样动态分配计算资源，简单样本步数少、复杂样本步数多，不牺牲视觉质量
GRN 具备良好的任务泛化性和可扩展性，成功扩展到 1024×1024 T2I 和 480p T2V 任务

核心贡献总结

贡献	关键内容	证据
GRN 框架	全局细化机制 + 复杂度感知生成	论文§1, §3.2-3.3
HBQ 量化	分层二进制量化，误差指数衰减	论文§3.1, Eq.1-3, Fig.2-3
SOTA 结果	ImageNet rFID 0.56, gFID 1.81	论文§1, §4
扩展性	T2I 1024×1024, T2V 480p 2-10s	论文§1, §4.3-4.4

对未来研究的启示

离散表示的复兴：HBQ 证明离散 tokenizer 不必劣于连续表示，未来可能推动更多基于离散潜空间的生成模型研究，而非一味追求连续扩散
自适应计算成为标配：复杂度感知生成提示未来视觉模型应像 LLM 一样具备"思考深度"的自适应能力，而非固定步数推理
全局细化机制的泛化：GRN 的"绘画式"全局修正可扩展到其他序列生成任务（如音频、3D），突破自回归的因果限制
效率与质量的重新权衡：GRN 在同等规模下优于扩散模型，可能引发对扩散范式主导地位的重新评估，特别是在资源受限场景
开源生态：代码和模型已发布（ https://github.com/MGenAI/GRN ），为社区复现和改进提供基础

收获

技术启示

HBQ 的指数衰减误差保证：Hierarchical Binary Quantization 通过二叉树逐轮量化，每轮误差上界为 (1/2^j)，理论上可实现近乎无损的离散压缩，首次让离散 tokenizer 在同等 latent 维度下匹敌连续表示（rFID 0.56）。这揭示了"分层粗到细"是连接离散与连续表示的桥梁。
全局细化 = 非因果自校正：GRN 突破了传统 AR 模型的严格因果性约束，允许模型像人类画家一样"回头修改"已生成的 token，从根本上解决了 AR 模型的误差累积问题。
熵作为计算复杂度的代理：利用 token 分布的熵动态决定采样步数，实现了"简单样本少步、复杂样本多步"的自适应计算分配，无需额外网络或强化学习训练。
AR+Diffusion 的范式融合：GRN 保留了 AR 的似然建模和自适应计算优势，同时通过全局细化获得了 Diffusion 的迭代修正能力，可能是下一代视觉生成的基础架构。

对视觉生成模型发展的思考

离散 token 的复兴：此前普遍认为连续 VAE 优于离散 tokenizer，HBQ 证明离散表示在足够精细的量化策略下可以达到同等质量，且更利于 AR 生成。
从"一步定终身"到"迭代修正"：MaskGIT 等并行 AR 模型一旦确定高置信 token 便不可更改，GRN 的全局细化机制表明"可逆性"是提升生成质量的关键。
计算效率的新维度：Diffusion 的固定步数 vs AR 的变长序列 vs GRN 的熵引导自适应步数——未来的效率优化应从"减少总步数"转向"按复杂度分配步数"。
错误累积的系统性解决：Infinity 等方法的自校正假设误差<30%，GRN 通过全局细化不依赖此类假设，更具鲁棒性。

可能的实践价值或应用方向

实时/边缘设备生成：自适应步数意味着简单图像可用极少步数生成，适合移动端实时应用。
视频生成：HBQ 统一了图像和视频 tokenization，GRN 在 Wan 2.1 的 3D causal VAE 基础上扩展，480p 2-10 秒视频生成已验证。
交互式编辑：全局细化机制天然支持"草图→精修"的交互式创作流程，类似数字绘画软件的图层修正。
多模态统一：离散 token 便于与 LLM 对齐，GRN 可能成为视觉-语言统一生成的基础组件。
压缩与传输：HBQ 的粗到细特性支持渐进式传输，先传低精度预览、再传细化层。