ESC
输入关键词搜索文章
目录

Infinity

Bitwise 视觉自回归建模 · ByteDance · arXiv 2024
2^64 词表 + Bitwise IVC + 自我纠正,离散生成首次在质量和速度上同时超越扩散模型
264词表大小
0.73GenEval
0.8s1024² 延迟
66%人评胜率
Part 1 · 引言
离散生成的最后一层束缚

2024 年视觉自回归生成经历了两次范式转变。年初 VAR #Tian et al., 2024 提出 next-scale prediction,将光栅扫描式的 next-token 生成改为 coarse-to-fine 的多尺度预测,大幅提升了自回归模型的生成质量和速度。年末,ByteDance 的 Infinity #Han et al., 2024 在此基础上迈出了更激进的一步:把 token 预测从"预测一个 64 位整数"变成"并行预测 64 个二进制位"。

这看起来只是一个实现细节的改动,但解决了离散自回归视觉模型三个根深蒂固的问题:离散 tokenizer 的量化误差、大词表分类器的计算爆炸、以及 teacher-forcing 的训练-推理不一致

Infinity 在多个维度上达到了新的 SOTA:GenEval 0.73(超越 SD3-Medium 的 0.62 和 PixArt-Sigma 的 0.74)、ImageReward 0.96(第二名为 0.87)、HPSv2.1 32.25、人类评估 66% 胜率。同时推理速度仅 0.8 秒/图,是 SD3-Medium 的 2.6 倍 #Han et al., 2024

核心判断:Infinity 用 bitwise 建模统一了 tokenizer 容量、分类器效率和训练信号质量这三个互斥的目标。它不是发明了新的生成范式,而是解开了离散建模的最后一层束缚——整数索引。
Infinity 高分辨率生成样本
图 1: Infinity 的高分辨率图像合成结果,展示了其在精确提示跟随、空间推理、文本渲染和审美质量上的综合能力。(来源: Han et al., 2024, Fig.1)
Part 2 · 问题剖析
离散自回归建模的三重困境

为什么离散自回归模型长期落后于扩散模型?Infinity 的论文精确定位了三个独立但相互纠缠的瓶颈。

问题一:量化误差

传统 VQ-VAE #Van Den Oord et al., 2017 的离散 tokenizer 在词表有限时量化误差明显。此前最佳的离散 tokenizer(Open-MAGVIT2 的 LFQ,$2^{18}=262K$ 词表)在 ImageNet 256×256 上重建 rFID 约 0.87,而连续 VAE(如 SD 的 VAE,rFID 约 0.87)同样在此水平。直到 Infinity 将词表推到 $2^{64}$,重建 rFID 降至 0.33,首次在重建质量上大幅超越连续方案 #Han et al., 2024

问题二:计算瓶颈

传统分类器的 softmax 层需要一个形状为 [hidden_dim, V_d] 的权重矩阵。当词表 V_d = 2^d 时,d=16 时 softmax 层需 124M 参数(hidden_dim=768),d=18 时需近 500M 参数,d=32 时需 8.8 万亿参数——远超当前计算极限 #Han et al., 2024。这意味着 tokenizer 的容量扩大直接导致生成器参数被分类器大量消耗——一个纯粹的计算枷锁。

问题三:Teacher-Forcing 的不一致

自回归模型在训练时看到的都是 ground-truth 输入(teacher-forcing),但在推理时输入来自自身前一尺度的预测。微小的量化扰动在跨尺度传播中持续放大。模型从未在训练中"见过"自己的错误,因此不具备纠正能力。Infinity 的消融实验表明,不加纠正时 FID 高达 9.76,引入 BSC 后降至 3.33 #Han et al., 2024

Bitwise 的核心洞察

把图像离散表示为 d 个二进制位,而不是一个 d 位的整数索引。预测 64 个独立的二进制位,与预测一个 64 位整数,在信息论上等价。但在计算上:前者需要 64 个二分类器(线性增长),后者需要 2^64 类分类器(指数增长)。在优化上:某个位的近零值混淆不影响其他位的清晰监督。

传统分类器 vs IVC
图 2: 传统分类器(左)预测 2^d 个索引,参数随 d 指数增长;IVC(右)预测 d 个二进制位,参数线性增长。当 d=32, h=2048 时,传统分类器需 8.8 万亿参数,IVC 仅需 0.13M 参数。(来源: Han et al., 2024, Fig.2)
Part 3 · 模型结构
三大模块:BSQ · IVC · BSC

Infinity 由三个核心模块组成,分别在 tokenizer、classifier 和训练策略上实现 bitwise 替换。

Infinity 整体架构
图 3: Infinity 整体架构。图像经编码器提取多尺度特征,BSQ 量化器将各尺度映射为二元编码,Infinite-Vocabulary Classifier 用并行二分类头预测每个位,Bitwise Self-Correction 通过随机翻转 bits 模拟错误并重新量化。(来源: Han et al., 2024, Fig.3)
多尺度 Next-Scale Prediction 流程
图 4: 多尺度 Next-Scale Prediction 流程。从最低分辨率(1×1)开始逐步预测到最高分辨率(64×64),每一步将前一尺度的输出上采样后作为当前尺度的输入条件,并行预测该尺度的所有位置。(来源: Han et al., 2024, Fig.3)

3.1 Bitwise Visual Tokenizer(BSQ)

BSQ(Binary Spherical Quantization)继承自 MAGVIT-v2 #Yu et al., 2024 的 LFQ 思想,但进一步扩展到超球面:编码器输出在 L2 归一化后做 sign() 量化,每个维度的输出为 -1 或 +1。d=64 时词表 V_d = 2^64,远超此前所有离散 tokenizer。

BSQ 量化公式

编码器输出 $\mathbf{z}_k \in \mathbb{R}^{h_k \times w_k \times d}$,经 L2 归一化和符号量化:

$$\mathbf{q}_k = \frac{\text{sign}(\mathbf{z}_k)}{\sqrt{d}}, \quad \mathbf{q}_k \in \{-\frac{1}{\sqrt{d}}, +\frac{1}{\sqrt{d}}\}^{h_k \times w_k \times d}$$

每个元素为 $\pm 1/\sqrt{d}$,对应二进制位 0/1。词表大小 V_d = 2^d。

BSQ 的关键优势:熵正则化复杂度仅为 O(d),而 LFQ 在大词表下需要近似。BSQ 支持从 d=16(2^16 ≈ 6.5 万)到 d=64(2^64 ≈ 1.8 × 10^19)的无缝扩展。词表从 2^16 扩展到 2^64 时,重建 rFID 从 0.87 降至 0.33(ImageNet 256×256),首次在重建质量上大幅超越连续 SD VAE(0.87)#Han et al., 2024

3.2 Infinite-Vocabulary Classifier(IVC)

IVC 用 d 个并行二分类器替代一个 V_d 分类器。对于 d=16(词表 65,536):传统分类器需 124M 参数和 2GB vRAM;IVC 只需 0.65M 参数和 10MB vRAM,节省 99.95% 的参数量 #Han et al., 2024

IVC 形式化定义

给定 Transformer 输出隐藏状态 $\mathbf{h}_t \in \mathbb{R}^{h}$,第 i 个位的预测概率为:

$$p(b_{t,i} = +1 | context) = \text{sigmoid}(\text{MLP}_i(\mathbf{h}_t))$$

每个 MLP_i 是一个线性投影(也可共享参数提升效率),总参数量 O(hidden_dim × d)。

更关键的是优化上的优势。在 index-wise 预测中,某个维度 z_i 接近 0 的正负混淆会完全改变整数索引标签,给予完全不同的监督信号。在 bitwise 预测中,z_i 的混淆只影响第 i 位的监督,其他 63 位完全不受影响——这意味着更稳定的梯度和更有效的大词表学习。

计算对比:d=32, hidden_dim=2048

  • 传统分类器:2^32 = 4.3B 类,参数 2048 × 4.3B = 8.8 万亿
  • IVC:32 个二分类器,参数 2048 × 32 = 0.13M
  • 缩减比:6,770 万倍
IVC 可视化
图 5: IVC 的可视化分析。Bitwise 分类器在训练过程中每个位的决策边界更加清晰稳定,减少了维度间的混淆。(来源: Han et al., 2024, Fig.IVC)

3.3 Bitwise Self-Correction(BSC)

BSC 在训练中随机翻转 R_k 的部分 bits,模拟推理时可能出现的预测错误。翻转比例 p 从 [0, p_max] 均匀采样。然后用翻转后的特征重新计算 Transformer 输入并重新量化得到新标签 R_{k+1},迫使模型学会识别和纠正错误。

BSC 自纠正流程
图 7: BSC 流程。在训练中随机翻转 R_k 的部分 bits(概率从 [0, p] 均匀采样),用翻转后的特征重新量化得到新目标标签 R_{k+1},迫使模型学会识别和纠正错误。(来源: Han et al., 2024, Fig.3)

关键结果:最优翻转比例约 30%(p_max = 0.3),FID 从 9.76(无 BSC)降至 3.33。BSC 只在训练引入,推理时零额外开销。

核心洞察:Teacher-forcing 导致模型只能"细化"特征,无法"纠正"错误。BSC 通过模拟推理时的预测错误,赋予了模型自我纠正的能力。这是将 teacher-forcing 训练与自回归推理之间 gap 最直接的解决范式。

3.4 多尺度 Next-Scale Prediction 与动态宽高比

位置编码与宽高比消融
图 8: Resolution-aware 位置编码的消融实验。Infinity 通过精心设计的宽高比感知位置编码,支持 1:1、16:9、4:3、3:1、1:3 等多样化宽高比生成,无需额外训练。(来源: Han et al., 2024)

Infinity 继承并扩展了 VAR #Tian et al., 2024 的 next-scale prediction 框架,将生成过程分为 K=13 个尺度(从 1×1 到 64×64 的 token map)。每一尺度预测一个二进制特征图 R_k ∈ {-1,+1}^{h_k×w_k×d},逐步从粗糙到精细重建图像。

与 VAR 不同,Infinity 支持动态宽高比。论文为每种宽高比预定义了 scale schedule,确保每尺度 token 面积大致相等(从而序列长度一致),支持 1:1、16:9、4:3、甚至 1:3、3:1 等特殊宽高比 #Han et al., 2024。Resolution-aware 位置编码用于处理不同尺度和宽高比的特征。

Part 4 · 训练策略
从 125M 到 4.7B 的协同缩放

训练数据与模型规格

Infinity 在内部 5 亿图文对数据集上训练,覆盖 5 个模型规模:125M、361M、719M、2.2B、4.7B 参数。BSQ 维度从 d=16 到 d=64 可配置,对应词表从 2^16(≈6.5 万)到 2^64(≈1.8×10^19)。

模型参数量词表大小GenEval↑ImageReward↑HPSv2.1↑
Infinity 125M125M2^640.510.7229.41
Infinity 361M361M2^640.630.8230.76
Infinity 719M719M2^640.680.8931.43
Infinity 2B2.0B2^640.730.9632.25
Infinity 4.7B4.7B2^640.751.0433.15

数据来自 #Han et al., 2024,同一基准下的完整规模链对比。注意 Infinity 4.7B 在 ImageReward 上达到惊人的 1.04。

损失函数

Infinity 的训练损失包括两部分:

$$\mathcal{L} = \mathcal{L}_{\text{recon}} + \lambda \cdot \mathcal{L}_{\text{entropy}}$$

其中 $\mathcal{L}_{\text{recon}}$ 是重建损失,驱动编码器-解码器学习图像压缩;$\mathcal{L}_{\text{entropy}}$ 是熵正则化项,促使量化特征的位分布趋于平衡,提高编码效率。BSQ 的熵正则化复杂度仅为 O(d),远低于 LFQ 在大词表下的近似开销 #Han et al., 2024

KV 缓存优化

推理时 IVC 的线性预测头可以无缝集成到 Transformer 的 KV 缓存系统中 #Han et al., 2024。由于 IVC 不需要计算完整的 softmax 分布(只做 d 个二分类),注意力计算的缓存复用效率更高。这是 Infinity 达到 0.8 秒/图推理速度的关键工程优化。

Part 5 · 实验验证
三个维度全面超越扩散模型

5.1 重建质量:从不如连续到大幅超越

在 ImageNet 256×256 上的重建实验清晰展示了词表大小对重建质量的直接影响:

Tokenizer词表大小rFID↓
VQGAN16,3841.48
Open-MAGVIT2 (LFQ)2^18 = 262K0.87
Infinity (d=16)2^16 = 65K0.87
Infinity (d=32)2^32 = 4.3B0.54
Infinity (d=64)2^640.33

数据来自 #Han et al., 2024。连续 SD VAE 的 rFID 约 0.87。Infinity 的 BSQ 在 d=64 时 rFID 0.33,是此前离散 tokenizer 的近 3 倍提升

质变意义:离散 tokenizer 首次在重建质量上大幅超越连续方案。这直接挑战了"离散一定不如连续"的长期假设。

5.2 主实验结果:GenEval / ImageReward / HPSv2.1

文本到图像生成的基准测试中,Infinity 2B 全面匹敌或超越同参数量扩散模型:

方法类型参数量GenEval↑ImageReward↑HPSv2.1↑延迟↓
SD3-MediumDiffusion2B0.620.8730.912.1s
SDXLDiffusion2.6B0.740.6030.062.7s
PixArt-SigmaDiffusion2B0.740.8731.471.1s
HARTAR0.7B0.640.8530.16-
Infinity 2BAR2B0.730.9632.250.8s
Infinity 4.7BAR4.7B0.751.0433.15-

数据综合自 #Han et al., 2024。Infinity 的关键优势:GenEval 上以 0.73 基本持平 SDXL/PixArt-Sigma(0.74),但 ImageReward 0.96 显著领先第二的 0.87(+10% 相对提升)。推理速度 0.8 秒,比 SD3-Medium 快 2.6 倍。

5.3 Scaling Law:词汇表与模型的协同缩放

Infinity 最重要的发现:词汇表大小和 Transformer 大小之间存在协同缩放效应。单独扩大词汇表而保留小模型,生成质量的提升有限;单独扩大模型而保留小词表,模型容量被浪费。只有当两个维度同时扩展时,收益才最大化 #Han et al., 2024

词汇表与模型协同缩放
图 9: 词汇表从 2^16 扩展到 2^32 时,大模型(2.2B)下生成质量显著提升,小模型(361M)下提升不明显。词汇表大小和模型大小存在协同效应。(来源: Han et al., 2024, Fig.4)

从 125M 到 4.7B 共 5 个规模的模型验证 loss 与 GenEval、ImageReward、HPSv2 的 Pearson 相关系数均 > -0.98,呈近线性关系。这是自回归视觉模型领域最清晰的 scaling law 证据之一 #Han et al., 2024

Scaling Law 验证
图 10: 验证 loss 与 GenEval / ImageReward / HPSv2.1 的 Pearson 相关系数均 > -0.98,呈近线性 scaling law。(来源: Han et al., 2024)

5.4 消融实验

消融项设置FID↓GenEval↑
无 BSC(baseline)p=09.760.64
BSC (p=0.1)p_max=0.14.660.68
BSC (p=0.2)p_max=0.23.780.70
BSC (p=0.3)p_max=0.33.330.73
BSC (p=0.4)p_max=0.43.450.72
词表 2^32 (d=32)无 BSC-0.70
词表 2^64 (d=64)无 BSC-0.71
词表 2^64 + BSC完全体3.330.73

数据来自 #Han et al., 2024。BSC 带来近 3 倍的 FID 改善。p=0.3 是最优翻转比例,超过则引入过多噪声。

5.5 生成样本与人类偏好

生成质量定性对比
图 11: Infinity 与 HART、SD3-Medium、PixArt-Sigma、Flux-Schnell 的定性对比。Infinity 在人体细节(手、腿)、提示跟随(油画风格)、背景纹理等方面显著优于其他 AR 模型,与扩散模型媲美或更优。(来源: Han et al., 2024, Appendix)
人类偏好评测
图 12: 人类偏好评测结果。Infinity 在整体质量、提示词跟随和视觉美学三个维度上获得最高比例的人类选择。与 HART 对比胜率高达 90%。(来源: Han et al., 2024)
复杂提示词跟随
图 13: Infinity 对复杂提示词的跟随示例,涵盖多物体关系、空间布局、风格约束等挑战性场景。(来源: Han et al., 2024)
Part 6 · 讨论与启发
Bitwise 思维与离散生成的未来

「Bitwise 建模将高维离散问题分解为二进制位预测,同时解决了计算和优化问题。」

——Han et al., 2024

与竞品的核心技术对比

方法类型Token 形式词表大小生成方式推理速度
VAR #Tian et al., 2024ARIndex-wise2^10Next-scale
MAGVIT-v2 #Yu et al., 2024AR/MaskedLFQ bits2^18Masked LM
HART #Yang et al., 2024ARIndex-wise2^10Next-scale
Emu3 #Sun et al., 2024ARIndex-wise2^10Next-token
InfinityARBitwise2^64Next-scale最快 (0.8s)

局限性

Infinity 论文明确承认的局限 #Han et al., 2024

  • 训练计算成本随词表增大而增加(虽然推理开销很小)
  • 在极长复杂 prompt(多实体 + 空间关系)上仍有失败案例
  • BSQ 的量化机制会在极低比特率场景下丢失微妙的色彩渐变
  • 仅在文本到图像任务上验证,视频生成尚未涉及

与图像压缩的连接

Infinity 与图像压缩方向的研究直接相关:

  • 无限词汇表的压缩潜力:2^64 的离散词表使重建质量超越连续 VAE,这意味着将图像压缩为离散 token 不再是"有损"的代名词。更大的 tokenizer 容量 = 更小的量化误差 = 更低的比特率。
  • Bitwise 编码的算术编码效率:BSQ 将图像表示为二进制位序列,天然适合算术编码。每个位的概率分布由 IVC 直接给出(正/负的二分类 logits),不需要额外的熵模型。
  • IVC 与熵模型的类比:IVC 本质上是一个概率模型:64 个独立二分类器给出每个位为 +1 的概率,这与熵模型的"估计 latent 分布的参数"是同构的。
  • 直接后继:RDVQ(CVPR 2026 Oral)正是在 Infinity/BSQ 基础上将率失真优化引入 tokenization。

个人启发

Infinity 最深刻的启示不是具体的架构设计,而是"bitwise 思维"本身:当一个问题在高维离散空间中难以计算和优化时,分解到二进制位层面可能自然解决。 这在 tokenizer(BSQ)、classifier(IVC)、纠错机制(BSC)三个模块上都得到了验证。这个思路可能适用于更广泛的离散表示学习问题——不仅仅是图像,也不仅仅是生成。

参考来源

  • Han, J. et al. (2024). Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis.

    arXiv:2412.04431
  • Tian, K. et al. (2024). Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction.

    arXiv:2404.02905
  • Yu, L. et al. (2024). Language Model Beats Diffusion — Tokenizer is Key to Visual Generation (MAGVIT-v2).

    arXiv:2310.05737
  • Van Den Oord, A. et al. (2017). Neural Discrete Representation Learning (VQ-VAE). NIPS 2017.

    arXiv:1711.00937
  • Yang, Z. et al. (2024). HART: High-Quality Autoregressive Image Generation with Hierarchical Attention.

    arXiv:2410.07521
  • Sun, Q. et al. (2024). Emu3: Next-Token Prediction is All You Need.

    arXiv:2409.02696