Infinity
2024 年视觉自回归生成经历了两次范式转变。年初 VAR #Tian et al., 2024 提出 next-scale prediction,将光栅扫描式的 next-token 生成改为 coarse-to-fine 的多尺度预测,大幅提升了自回归模型的生成质量和速度。年末,ByteDance 的 Infinity #Han et al., 2024 在此基础上迈出了更激进的一步:把 token 预测从"预测一个 64 位整数"变成"并行预测 64 个二进制位"。
这看起来只是一个实现细节的改动,但解决了离散自回归视觉模型三个根深蒂固的问题:离散 tokenizer 的量化误差、大词表分类器的计算爆炸、以及 teacher-forcing 的训练-推理不一致。
Infinity 在多个维度上达到了新的 SOTA:GenEval 0.73(超越 SD3-Medium 的 0.62 和 PixArt-Sigma 的 0.74)、ImageReward 0.96(第二名为 0.87)、HPSv2.1 32.25、人类评估 66% 胜率。同时推理速度仅 0.8 秒/图,是 SD3-Medium 的 2.6 倍 #Han et al., 2024。
为什么离散自回归模型长期落后于扩散模型?Infinity 的论文精确定位了三个独立但相互纠缠的瓶颈。
问题一:量化误差
传统 VQ-VAE #Van Den Oord et al., 2017 的离散 tokenizer 在词表有限时量化误差明显。此前最佳的离散 tokenizer(Open-MAGVIT2 的 LFQ,$2^{18}=262K$ 词表)在 ImageNet 256×256 上重建 rFID 约 0.87,而连续 VAE(如 SD 的 VAE,rFID 约 0.87)同样在此水平。直到 Infinity 将词表推到 $2^{64}$,重建 rFID 降至 0.33,首次在重建质量上大幅超越连续方案 #Han et al., 2024。
问题二:计算瓶颈
传统分类器的 softmax 层需要一个形状为 [hidden_dim, V_d] 的权重矩阵。当词表 V_d = 2^d 时,d=16 时 softmax 层需 124M 参数(hidden_dim=768),d=18 时需近 500M 参数,d=32 时需 8.8 万亿参数——远超当前计算极限 #Han et al., 2024。这意味着 tokenizer 的容量扩大直接导致生成器参数被分类器大量消耗——一个纯粹的计算枷锁。
问题三:Teacher-Forcing 的不一致
自回归模型在训练时看到的都是 ground-truth 输入(teacher-forcing),但在推理时输入来自自身前一尺度的预测。微小的量化扰动在跨尺度传播中持续放大。模型从未在训练中"见过"自己的错误,因此不具备纠正能力。Infinity 的消融实验表明,不加纠正时 FID 高达 9.76,引入 BSC 后降至 3.33 #Han et al., 2024。
Bitwise 的核心洞察
把图像离散表示为 d 个二进制位,而不是一个 d 位的整数索引。预测 64 个独立的二进制位,与预测一个 64 位整数,在信息论上等价。但在计算上:前者需要 64 个二分类器(线性增长),后者需要 2^64 类分类器(指数增长)。在优化上:某个位的近零值混淆不影响其他位的清晰监督。
Infinity 由三个核心模块组成,分别在 tokenizer、classifier 和训练策略上实现 bitwise 替换。
3.1 Bitwise Visual Tokenizer(BSQ)
BSQ(Binary Spherical Quantization)继承自 MAGVIT-v2 #Yu et al., 2024 的 LFQ 思想,但进一步扩展到超球面:编码器输出在 L2 归一化后做 sign() 量化,每个维度的输出为 -1 或 +1。d=64 时词表 V_d = 2^64,远超此前所有离散 tokenizer。
BSQ 量化公式
编码器输出 $\mathbf{z}_k \in \mathbb{R}^{h_k \times w_k \times d}$,经 L2 归一化和符号量化:
每个元素为 $\pm 1/\sqrt{d}$,对应二进制位 0/1。词表大小 V_d = 2^d。
BSQ 的关键优势:熵正则化复杂度仅为 O(d),而 LFQ 在大词表下需要近似。BSQ 支持从 d=16(2^16 ≈ 6.5 万)到 d=64(2^64 ≈ 1.8 × 10^19)的无缝扩展。词表从 2^16 扩展到 2^64 时,重建 rFID 从 0.87 降至 0.33(ImageNet 256×256),首次在重建质量上大幅超越连续 SD VAE(0.87)#Han et al., 2024。
3.2 Infinite-Vocabulary Classifier(IVC)
IVC 用 d 个并行二分类器替代一个 V_d 分类器。对于 d=16(词表 65,536):传统分类器需 124M 参数和 2GB vRAM;IVC 只需 0.65M 参数和 10MB vRAM,节省 99.95% 的参数量 #Han et al., 2024。
IVC 形式化定义
给定 Transformer 输出隐藏状态 $\mathbf{h}_t \in \mathbb{R}^{h}$,第 i 个位的预测概率为:
每个 MLP_i 是一个线性投影(也可共享参数提升效率),总参数量 O(hidden_dim × d)。
更关键的是优化上的优势。在 index-wise 预测中,某个维度 z_i 接近 0 的正负混淆会完全改变整数索引标签,给予完全不同的监督信号。在 bitwise 预测中,z_i 的混淆只影响第 i 位的监督,其他 63 位完全不受影响——这意味着更稳定的梯度和更有效的大词表学习。
计算对比:d=32, hidden_dim=2048
- 传统分类器:2^32 = 4.3B 类,参数 2048 × 4.3B = 8.8 万亿
- IVC:32 个二分类器,参数 2048 × 32 = 0.13M
- 缩减比:6,770 万倍
3.3 Bitwise Self-Correction(BSC)
BSC 在训练中随机翻转 R_k 的部分 bits,模拟推理时可能出现的预测错误。翻转比例 p 从 [0, p_max] 均匀采样。然后用翻转后的特征重新计算 Transformer 输入并重新量化得到新标签 R_{k+1},迫使模型学会识别和纠正错误。
关键结果:最优翻转比例约 30%(p_max = 0.3),FID 从 9.76(无 BSC)降至 3.33。BSC 只在训练引入,推理时零额外开销。
3.4 多尺度 Next-Scale Prediction 与动态宽高比
Infinity 继承并扩展了 VAR #Tian et al., 2024 的 next-scale prediction 框架,将生成过程分为 K=13 个尺度(从 1×1 到 64×64 的 token map)。每一尺度预测一个二进制特征图 R_k ∈ {-1,+1}^{h_k×w_k×d},逐步从粗糙到精细重建图像。
与 VAR 不同,Infinity 支持动态宽高比。论文为每种宽高比预定义了 scale schedule,确保每尺度 token 面积大致相等(从而序列长度一致),支持 1:1、16:9、4:3、甚至 1:3、3:1 等特殊宽高比 #Han et al., 2024。Resolution-aware 位置编码用于处理不同尺度和宽高比的特征。
训练数据与模型规格
Infinity 在内部 5 亿图文对数据集上训练,覆盖 5 个模型规模:125M、361M、719M、2.2B、4.7B 参数。BSQ 维度从 d=16 到 d=64 可配置,对应词表从 2^16(≈6.5 万)到 2^64(≈1.8×10^19)。
| 模型 | 参数量 | 词表大小 | GenEval↑ | ImageReward↑ | HPSv2.1↑ |
|---|---|---|---|---|---|
| Infinity 125M | 125M | 2^64 | 0.51 | 0.72 | 29.41 |
| Infinity 361M | 361M | 2^64 | 0.63 | 0.82 | 30.76 |
| Infinity 719M | 719M | 2^64 | 0.68 | 0.89 | 31.43 |
| Infinity 2B | 2.0B | 2^64 | 0.73 | 0.96 | 32.25 |
| Infinity 4.7B | 4.7B | 2^64 | 0.75 | 1.04 | 33.15 |
数据来自 #Han et al., 2024,同一基准下的完整规模链对比。注意 Infinity 4.7B 在 ImageReward 上达到惊人的 1.04。
损失函数
Infinity 的训练损失包括两部分:
其中 $\mathcal{L}_{\text{recon}}$ 是重建损失,驱动编码器-解码器学习图像压缩;$\mathcal{L}_{\text{entropy}}$ 是熵正则化项,促使量化特征的位分布趋于平衡,提高编码效率。BSQ 的熵正则化复杂度仅为 O(d),远低于 LFQ 在大词表下的近似开销 #Han et al., 2024。
KV 缓存优化
推理时 IVC 的线性预测头可以无缝集成到 Transformer 的 KV 缓存系统中 #Han et al., 2024。由于 IVC 不需要计算完整的 softmax 分布(只做 d 个二分类),注意力计算的缓存复用效率更高。这是 Infinity 达到 0.8 秒/图推理速度的关键工程优化。
5.1 重建质量:从不如连续到大幅超越
在 ImageNet 256×256 上的重建实验清晰展示了词表大小对重建质量的直接影响:
| Tokenizer | 词表大小 | rFID↓ |
|---|---|---|
| VQGAN | 16,384 | 1.48 |
| Open-MAGVIT2 (LFQ) | 2^18 = 262K | 0.87 |
| Infinity (d=16) | 2^16 = 65K | 0.87 |
| Infinity (d=32) | 2^32 = 4.3B | 0.54 |
| Infinity (d=64) | 2^64 | 0.33 |
数据来自 #Han et al., 2024。连续 SD VAE 的 rFID 约 0.87。Infinity 的 BSQ 在 d=64 时 rFID 0.33,是此前离散 tokenizer 的近 3 倍提升。
5.2 主实验结果:GenEval / ImageReward / HPSv2.1
文本到图像生成的基准测试中,Infinity 2B 全面匹敌或超越同参数量扩散模型:
| 方法 | 类型 | 参数量 | GenEval↑ | ImageReward↑ | HPSv2.1↑ | 延迟↓ |
|---|---|---|---|---|---|---|
| SD3-Medium | Diffusion | 2B | 0.62 | 0.87 | 30.91 | 2.1s |
| SDXL | Diffusion | 2.6B | 0.74 | 0.60 | 30.06 | 2.7s |
| PixArt-Sigma | Diffusion | 2B | 0.74 | 0.87 | 31.47 | 1.1s |
| HART | AR | 0.7B | 0.64 | 0.85 | 30.16 | - |
| Infinity 2B | AR | 2B | 0.73 | 0.96 | 32.25 | 0.8s |
| Infinity 4.7B | AR | 4.7B | 0.75 | 1.04 | 33.15 | - |
数据综合自 #Han et al., 2024。Infinity 的关键优势:GenEval 上以 0.73 基本持平 SDXL/PixArt-Sigma(0.74),但 ImageReward 0.96 显著领先第二的 0.87(+10% 相对提升)。推理速度 0.8 秒,比 SD3-Medium 快 2.6 倍。
5.3 Scaling Law:词汇表与模型的协同缩放
Infinity 最重要的发现:词汇表大小和 Transformer 大小之间存在协同缩放效应。单独扩大词汇表而保留小模型,生成质量的提升有限;单独扩大模型而保留小词表,模型容量被浪费。只有当两个维度同时扩展时,收益才最大化 #Han et al., 2024。
从 125M 到 4.7B 共 5 个规模的模型验证 loss 与 GenEval、ImageReward、HPSv2 的 Pearson 相关系数均 > -0.98,呈近线性关系。这是自回归视觉模型领域最清晰的 scaling law 证据之一 #Han et al., 2024。
5.4 消融实验
| 消融项 | 设置 | FID↓ | GenEval↑ |
|---|---|---|---|
| 无 BSC(baseline) | p=0 | 9.76 | 0.64 |
| BSC (p=0.1) | p_max=0.1 | 4.66 | 0.68 |
| BSC (p=0.2) | p_max=0.2 | 3.78 | 0.70 |
| BSC (p=0.3) | p_max=0.3 | 3.33 | 0.73 |
| BSC (p=0.4) | p_max=0.4 | 3.45 | 0.72 |
| 词表 2^32 (d=32) | 无 BSC | - | 0.70 |
| 词表 2^64 (d=64) | 无 BSC | - | 0.71 |
| 词表 2^64 + BSC | 完全体 | 3.33 | 0.73 |
数据来自 #Han et al., 2024。BSC 带来近 3 倍的 FID 改善。p=0.3 是最优翻转比例,超过则引入过多噪声。
5.5 生成样本与人类偏好
「Bitwise 建模将高维离散问题分解为二进制位预测,同时解决了计算和优化问题。」
与竞品的核心技术对比
| 方法 | 类型 | Token 形式 | 词表大小 | 生成方式 | 推理速度 |
|---|---|---|---|---|---|
| VAR #Tian et al., 2024 | AR | Index-wise | 2^10 | Next-scale | 快 |
| MAGVIT-v2 #Yu et al., 2024 | AR/Masked | LFQ bits | 2^18 | Masked LM | 中 |
| HART #Yang et al., 2024 | AR | Index-wise | 2^10 | Next-scale | 快 |
| Emu3 #Sun et al., 2024 | AR | Index-wise | 2^10 | Next-token | 慢 |
| Infinity | AR | Bitwise | 2^64 | Next-scale | 最快 (0.8s) |
局限性
Infinity 论文明确承认的局限 #Han et al., 2024:
- 训练计算成本随词表增大而增加(虽然推理开销很小)
- 在极长复杂 prompt(多实体 + 空间关系)上仍有失败案例
- BSQ 的量化机制会在极低比特率场景下丢失微妙的色彩渐变
- 仅在文本到图像任务上验证,视频生成尚未涉及
与图像压缩的连接
Infinity 与图像压缩方向的研究直接相关:
- 无限词汇表的压缩潜力:2^64 的离散词表使重建质量超越连续 VAE,这意味着将图像压缩为离散 token 不再是"有损"的代名词。更大的 tokenizer 容量 = 更小的量化误差 = 更低的比特率。
- Bitwise 编码的算术编码效率:BSQ 将图像表示为二进制位序列,天然适合算术编码。每个位的概率分布由 IVC 直接给出(正/负的二分类 logits),不需要额外的熵模型。
- IVC 与熵模型的类比:IVC 本质上是一个概率模型:64 个独立二分类器给出每个位为 +1 的概率,这与熵模型的"估计 latent 分布的参数"是同构的。
- 直接后继:RDVQ(CVPR 2026 Oral)正是在 Infinity/BSQ 基础上将率失真优化引入 tokenization。
个人启发
Infinity 最深刻的启示不是具体的架构设计,而是"bitwise 思维"本身:当一个问题在高维离散空间中难以计算和优化时,分解到二进制位层面可能自然解决。 这在 tokenizer(BSQ)、classifier(IVC)、纠错机制(BSC)三个模块上都得到了验证。这个思路可能适用于更广泛的离散表示学习问题——不仅仅是图像,也不仅仅是生成。
参考来源
-
Han, J. et al. (2024). Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis.
arXiv:2412.04431 -
Tian, K. et al. (2024). Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction.
arXiv:2404.02905 -
Yu, L. et al. (2024). Language Model Beats Diffusion — Tokenizer is Key to Visual Generation (MAGVIT-v2).
arXiv:2310.05737 -
Van Den Oord, A. et al. (2017). Neural Discrete Representation Learning (VQ-VAE). NIPS 2017.
arXiv:1711.00937 -
Yang, Z. et al. (2024). HART: High-Quality Autoregressive Image Generation with Hierarchical Attention.
arXiv:2410.07521 -
Sun, Q. et al. (2024). Emu3: Next-Token Prediction is All You Need.
arXiv:2409.02696