Infinity：Bitwise 自回归建模与无限词汇表

2026/05/20 20:00:00·2026/05/30 23:35:00

infinity bitwise autoregressive visual-generation tokenizer scaling-law image-compression

Part 1 · 引言

离散生成的最后一层束缚

2024 年视觉自回归生成经历了两次范式转变。年初 VAR #Tian et al., 2024 提出 next-scale prediction，将光栅扫描式的 next-token 生成改为 coarse-to-fine 的多尺度预测，大幅提升了自回归模型的生成质量和速度。年末，ByteDance 的 Infinity #Han et al., 2024 在此基础上迈出了更激进的一步：把 token 预测从"预测一个 64 位整数"变成"并行预测 64 个二进制位"。

这看起来只是一个实现细节的改动，但解决了离散自回归视觉模型三个根深蒂固的问题：离散 tokenizer 的量化误差、大词表分类器的计算爆炸、以及 teacher-forcing 的训练-推理不一致。

Infinity 在多个维度上达到了新的 SOTA：GenEval 0.73（超越 SD3-Medium 的 0.62 和 PixArt-Sigma 的 0.74）、ImageReward 0.96（第二名为 0.87）、HPSv2.1 32.25、人类评估 66% 胜率。同时推理速度仅 0.8 秒/图，是 SD3-Medium 的 2.6 倍 #Han et al., 2024。

核心判断：Infinity 用 bitwise 建模统一了 tokenizer 容量、分类器效率和训练信号质量这三个互斥的目标。它不是发明了新的生成范式，而是解开了离散建模的最后一层束缚——整数索引。

图 1: Infinity 的高分辨率图像合成结果，展示了其在精确提示跟随、空间推理、文本渲染和审美质量上的综合能力。（来源: Han et al., 2024, Fig.1）

Part 2 · 问题剖析

离散自回归建模的三重困境

为什么离散自回归模型长期落后于扩散模型？Infinity 的论文精确定位了三个独立但相互纠缠的瓶颈。

问题一：量化误差

传统 VQ-VAE #Van Den Oord et al., 2017 的离散 tokenizer 在词表有限时量化误差明显。此前最佳的离散 tokenizer（Open-MAGVIT2 的 LFQ， $2^{18}=262K$ 词表）在 ImageNet 256×256 上重建 rFID 约 0.87，而连续 VAE（如 SD 的 VAE，rFID 约 0.87）同样在此水平。直到 Infinity 将词表推到 $2^{64}$ ，重建 rFID 降至 0.33，首次在重建质量上大幅超越连续方案 #Han et al., 2024。

问题二：计算瓶颈

传统分类器的 softmax 层需要一个形状为 [hidden_dim, V_d] 的权重矩阵。当词表 V_d = 2^d 时，d=16 时 softmax 层需 124M 参数（hidden_dim=768），d=18 时需近 500M 参数，d=32 时需 8.8 万亿参数——远超当前计算极限 #Han et al., 2024。这意味着 tokenizer 的容量扩大直接导致生成器参数被分类器大量消耗——一个纯粹的计算枷锁。

问题三：Teacher-Forcing 的不一致

自回归模型在训练时看到的都是 ground-truth 输入（teacher-forcing），但在推理时输入来自自身前一尺度的预测。微小的量化扰动在跨尺度传播中持续放大。模型从未在训练中"见过"自己的错误，因此不具备纠正能力。Infinity 的消融实验表明，不加纠正时 FID 高达 9.76，引入 BSC 后降至 3.33 #Han et al., 2024。

Bitwise 的核心洞察

把图像离散表示为 d 个二进制位，而不是一个 d 位的整数索引。预测 64 个独立的二进制位，与预测一个 64 位整数，在信息论上等价。但在计算上：前者需要 64 个二分类器（线性增长），后者需要 2^64 类分类器（指数增长）。在优化上：某个位的近零值混淆不影响其他位的清晰监督。

图 2: 传统分类器（左）预测 2^d 个索引，参数随 d 指数增长；IVC（右）预测 d 个二进制位，参数线性增长。当 d=32, h=2048 时，传统分类器需 8.8 万亿参数，IVC 仅需 0.13M 参数。（来源: Han et al., 2024, Fig.2）

Part 3 · 模型结构

三大模块：BSQ · IVC · BSC

Infinity 由三个核心模块组成，分别在 tokenizer、classifier 和训练策略上实现 bitwise 替换。

图 3: Infinity 整体架构。图像经编码器提取多尺度特征，BSQ 量化器将各尺度映射为二元编码，Infinite-Vocabulary Classifier 用并行二分类头预测每个位，Bitwise Self-Correction 通过随机翻转 bits 模拟错误并重新量化。（来源: Han et al., 2024, Fig.3）

图 4: 多尺度 Next-Scale Prediction 流程。从最低分辨率（1×1）开始逐步预测到最高分辨率（64×64），每一步将前一尺度的输出上采样后作为当前尺度的输入条件，并行预测该尺度的所有位置。（来源: Han et al., 2024, Fig.3）

3.1 Bitwise Visual Tokenizer（BSQ）

BSQ（Binary Spherical Quantization）继承自 MAGVIT-v2 #Yu et al., 2024 的 LFQ 思想，但进一步扩展到超球面：编码器输出在 L2 归一化后做 sign() 量化，每个维度的输出为 -1 或 +1。d=64 时词表 V_d = 2^64，远超此前所有离散 tokenizer。

BSQ 量化公式

编码器输出 $\mathbf{z}_k \in \mathbb{R}^{h_k \times w_k \times d}$ ，经 L2 归一化和符号量化：

\mathbf{q}_k = \frac{\text{sign}(\mathbf{z}_k)}{\sqrt{d}}, \quad \mathbf{q}_k \in \{-\frac{1}{\sqrt{d}}, +\frac{1}{\sqrt{d}}\}^{h_k \times w_k \times d}

每个元素为 $\pm 1/\sqrt{d}$ ，对应二进制位 0/1。词表大小 V_d = 2^d。

BSQ 的关键优势：熵正则化复杂度仅为 O(d)，而 LFQ 在大词表下需要近似。BSQ 支持从 d=16（2^16 ≈ 6.5 万）到 d=64（2^64 ≈ 1.8 × 10^19）的无缝扩展。词表从 2^16 扩展到 2^64 时，重建 rFID 从 0.87 降至 0.33（ImageNet 256×256），首次在重建质量上大幅超越连续 SD VAE（0.87）#Han et al., 2024。

3.2 Infinite-Vocabulary Classifier（IVC）

IVC 用 d 个并行二分类器替代一个 V_d 分类器。对于 d=16（词表 65,536）：传统分类器需 124M 参数和 2GB vRAM；IVC 只需 0.65M 参数和 10MB vRAM，节省 99.95% 的参数量 #Han et al., 2024。

IVC 形式化定义

给定 Transformer 输出隐藏状态 $\mathbf{h}_t \in \mathbb{R}^{h}$ ，第 i 个位的预测概率为：

p(b_{t,i} = +1 | context) = \text{sigmoid}(\text{MLP}_i(\mathbf{h}_t))

每个 MLP_i 是一个线性投影（也可共享参数提升效率），总参数量 O(hidden_dim × d)。

更关键的是优化上的优势。在 index-wise 预测中，某个维度 z_i 接近 0 的正负混淆会完全改变整数索引标签，给予完全不同的监督信号。在 bitwise 预测中，z_i 的混淆只影响第 i 位的监督，其他 63 位完全不受影响——这意味着更稳定的梯度和更有效的大词表学习。

计算对比：d=32, hidden_dim=2048

传统分类器：2^32 = 4.3B 类，参数 2048 × 4.3B = 8.8 万亿
IVC：32 个二分类器，参数 2048 × 32 = 0.13M
缩减比：6,770 万倍

图 5: IVC 的可视化分析。Bitwise 分类器在训练过程中每个位的决策边界更加清晰稳定，减少了维度间的混淆。（来源: Han et al., 2024, Fig.IVC）

3.3 Bitwise Self-Correction（BSC）

BSC 在训练中随机翻转 R_k 的部分 bits，模拟推理时可能出现的预测错误。翻转比例 p 从 [0, p_max] 均匀采样。然后用翻转后的特征重新计算 Transformer 输入并重新量化得到新标签 R_{k+1}，迫使模型学会识别和纠正错误。

图 7: BSC 流程。在训练中随机翻转 R_k 的部分 bits（概率从 [0, p] 均匀采样），用翻转后的特征重新量化得到新目标标签 R_{k+1}，迫使模型学会识别和纠正错误。（来源: Han et al., 2024, Fig.3）

关键结果：最优翻转比例约 30%（p_max = 0.3），FID 从 9.76（无 BSC）降至 3.33。BSC 只在训练引入，推理时零额外开销。

核心洞察：Teacher-forcing 导致模型只能"细化"特征，无法"纠正"错误。BSC 通过模拟推理时的预测错误，赋予了模型自我纠正的能力。这是将 teacher-forcing 训练与自回归推理之间 gap 最直接的解决范式。

3.4 多尺度 Next-Scale Prediction 与动态宽高比

图 8: Resolution-aware 位置编码的消融实验。Infinity 通过精心设计的宽高比感知位置编码，支持 1:1、16:9、4:3、3:1、1:3 等多样化宽高比生成，无需额外训练。（来源: Han et al., 2024）

Infinity 继承并扩展了 VAR #Tian et al., 2024 的 next-scale prediction 框架，将生成过程分为 K=13 个尺度（从 1×1 到 64×64 的 token map）。每一尺度预测一个二进制特征图 R_k ∈ {-1,+1}^{h_k×w_k×d}，逐步从粗糙到精细重建图像。

与 VAR 不同，Infinity 支持动态宽高比。论文为每种宽高比预定义了 scale schedule，确保每尺度 token 面积大致相等（从而序列长度一致），支持 1:1、16:9、4:3、甚至 1:3、3:1 等特殊宽高比 #Han et al., 2024。Resolution-aware 位置编码用于处理不同尺度和宽高比的特征。

Part 4 · 训练策略

从 125M 到 4.7B 的协同缩放

训练数据与模型规格

Infinity 在内部 5 亿图文对数据集上训练，覆盖 5 个模型规模：125M、361M、719M、2.2B、4.7B 参数。BSQ 维度从 d=16 到 d=64 可配置，对应词表从 2^16（≈6.5 万）到 2^64（≈1.8×10^19）。

模型	参数量	词表大小	GenEval↑	ImageReward↑	HPSv2.1↑
Infinity 125M	125M	2^64	0.51	0.72	29.41
Infinity 361M	361M	2^64	0.63	0.82	30.76
Infinity 719M	719M	2^64	0.68	0.89	31.43
Infinity 2B	2.0B	2^64	0.73	0.96	32.25
Infinity 4.7B	4.7B	2^64	0.75	1.04	33.15

数据来自 #Han et al., 2024，同一基准下的完整规模链对比。注意 Infinity 4.7B 在 ImageReward 上达到惊人的 1.04。

损失函数

Infinity 的训练损失包括两部分：

\mathcal{L} = \mathcal{L}_{\text{recon}} + \lambda \cdot \mathcal{L}_{\text{entropy}}

其中 $\mathcal{L}_{\text{recon}}$ 是重建损失，驱动编码器-解码器学习图像压缩； $\mathcal{L}_{\text{entropy}}$ 是熵正则化项，促使量化特征的位分布趋于平衡，提高编码效率。BSQ 的熵正则化复杂度仅为 O(d)，远低于 LFQ 在大词表下的近似开销 #Han et al., 2024。

KV 缓存优化

推理时 IVC 的线性预测头可以无缝集成到 Transformer 的 KV 缓存系统中 #Han et al., 2024。由于 IVC 不需要计算完整的 softmax 分布（只做 d 个二分类），注意力计算的缓存复用效率更高。这是 Infinity 达到 0.8 秒/图推理速度的关键工程优化。

Part 5 · 实验验证

三个维度全面超越扩散模型

5.1 重建质量：从不如连续到大幅超越

在 ImageNet 256×256 上的重建实验清晰展示了词表大小对重建质量的直接影响：

Tokenizer	词表大小	rFID↓
VQGAN	16,384	1.48
Open-MAGVIT2 (LFQ)	2^18 = 262K	0.87
Infinity (d=16)	2^16 = 65K	0.87
Infinity (d=32)	2^32 = 4.3B	0.54
Infinity (d=64)	2^64	0.33

数据来自 #Han et al., 2024。连续 SD VAE 的 rFID 约 0.87。Infinity 的 BSQ 在 d=64 时 rFID 0.33，是此前离散 tokenizer 的近 3 倍提升。

质变意义：离散 tokenizer 首次在重建质量上大幅超越连续方案。这直接挑战了"离散一定不如连续"的长期假设。

5.2 主实验结果：GenEval / ImageReward / HPSv2.1

文本到图像生成的基准测试中，Infinity 2B 全面匹敌或超越同参数量扩散模型：

方法	类型	参数量	GenEval↑	ImageReward↑	HPSv2.1↑	延迟↓
SD3-Medium	Diffusion	2B	0.62	0.87	30.91	2.1s
SDXL	Diffusion	2.6B	0.74	0.60	30.06	2.7s
PixArt-Sigma	Diffusion	2B	0.74	0.87	31.47	1.1s
HART	AR	0.7B	0.64	0.85	30.16	-
Infinity 2B	AR	2B	0.73	0.96	32.25	0.8s
Infinity 4.7B	AR	4.7B	0.75	1.04	33.15	-

数据综合自 #Han et al., 2024。Infinity 的关键优势：GenEval 上以 0.73 基本持平 SDXL/PixArt-Sigma（0.74），但 ImageReward 0.96 显著领先第二的 0.87（+10% 相对提升）。推理速度 0.8 秒，比 SD3-Medium 快 2.6 倍。

5.3 Scaling Law：词汇表与模型的协同缩放

Infinity 最重要的发现：词汇表大小和 Transformer 大小之间存在协同缩放效应。单独扩大词汇表而保留小模型，生成质量的提升有限；单独扩大模型而保留小词表，模型容量被浪费。只有当两个维度同时扩展时，收益才最大化 #Han et al., 2024。

图 9: 词汇表从 2^16 扩展到 2^32 时，大模型（2.2B）下生成质量显著提升，小模型（361M）下提升不明显。词汇表大小和模型大小存在协同效应。（来源: Han et al., 2024, Fig.4）

从 125M 到 4.7B 共 5 个规模的模型验证 loss 与 GenEval、ImageReward、HPSv2 的 Pearson 相关系数均 > -0.98，呈近线性关系。这是自回归视觉模型领域最清晰的 scaling law 证据之一 #Han et al., 2024。

图 10: 验证 loss 与 GenEval / ImageReward / HPSv2.1 的 Pearson 相关系数均 > -0.98，呈近线性 scaling law。（来源: Han et al., 2024）

5.4 消融实验

消融项	设置	FID↓	GenEval↑
无 BSC（baseline）	p=0	9.76	0.64
BSC (p=0.1)	p_max=0.1	4.66	0.68
BSC (p=0.2)	p_max=0.2	3.78	0.70
BSC (p=0.3)	p_max=0.3	3.33	0.73
BSC (p=0.4)	p_max=0.4	3.45	0.72
词表 2^32 (d=32)	无 BSC	-	0.70
词表 2^64 (d=64)	无 BSC	-	0.71
词表 2^64 + BSC	完全体	3.33	0.73

数据来自 #Han et al., 2024。BSC 带来近 3 倍的 FID 改善。p=0.3 是最优翻转比例，超过则引入过多噪声。

5.5 生成样本与人类偏好

图 11: Infinity 与 HART、SD3-Medium、PixArt-Sigma、Flux-Schnell 的定性对比。Infinity 在人体细节（手、腿）、提示跟随（油画风格）、背景纹理等方面显著优于其他 AR 模型，与扩散模型媲美或更优。（来源: Han et al., 2024, Appendix）

图 12: 人类偏好评测结果。Infinity 在整体质量、提示词跟随和视觉美学三个维度上获得最高比例的人类选择。与 HART 对比胜率高达 90%。（来源: Han et al., 2024）

图 13: Infinity 对复杂提示词的跟随示例，涵盖多物体关系、空间布局、风格约束等挑战性场景。（来源: Han et al., 2024）

Part 6 · 讨论与启发

Bitwise 思维与离散生成的未来

「Bitwise 建模将高维离散问题分解为二进制位预测，同时解决了计算和优化问题。」

——Han et al., 2024

与竞品的核心技术对比

方法	类型	Token 形式	词表大小	生成方式	推理速度
VAR #Tian et al., 2024	AR	Index-wise	2^10	Next-scale	快
MAGVIT-v2 #Yu et al., 2024	AR/Masked	LFQ bits	2^18	Masked LM	中
HART #Yang et al., 2024	AR	Index-wise	2^10	Next-scale	快
Emu3 #Sun et al., 2024	AR	Index-wise	2^10	Next-token	慢
Infinity	AR	Bitwise	2^64	Next-scale	最快 (0.8s)

局限性

Infinity 论文明确承认的局限 #Han et al., 2024：

训练计算成本随词表增大而增加（虽然推理开销很小）
在极长复杂 prompt（多实体 + 空间关系）上仍有失败案例
BSQ 的量化机制会在极低比特率场景下丢失微妙的色彩渐变
仅在文本到图像任务上验证，视频生成尚未涉及

与图像压缩的连接

Infinity 与图像压缩方向的研究直接相关：

无限词汇表的压缩潜力：2^64 的离散词表使重建质量超越连续 VAE，这意味着将图像压缩为离散 token 不再是"有损"的代名词。更大的 tokenizer 容量 = 更小的量化误差 = 更低的比特率。
Bitwise 编码的算术编码效率：BSQ 将图像表示为二进制位序列，天然适合算术编码。每个位的概率分布由 IVC 直接给出（正/负的二分类 logits），不需要额外的熵模型。
IVC 与熵模型的类比：IVC 本质上是一个概率模型：64 个独立二分类器给出每个位为 +1 的概率，这与熵模型的"估计 latent 分布的参数"是同构的。
直接后继：RDVQ（CVPR 2026 Oral）正是在 Infinity/BSQ 基础上将率失真优化引入 tokenization。

个人启发

Infinity 最深刻的启示不是具体的架构设计，而是"bitwise 思维"本身：当一个问题在高维离散空间中难以计算和优化时，分解到二进制位层面可能自然解决。 这在 tokenizer（BSQ）、classifier（IVC）、纠错机制（BSC）三个模块上都得到了验证。这个思路可能适用于更广泛的离散表示学习问题——不仅仅是图像，也不仅仅是生成。

参考来源

Han, J. et al. (2024). Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis.
arXiv:2412.04431
Tian, K. et al. (2024). Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction.
arXiv:2404.02905
Yu, L. et al. (2024). Language Model Beats Diffusion — Tokenizer is Key to Visual Generation (MAGVIT-v2).
arXiv:2310.05737
Van Den Oord, A. et al. (2017). Neural Discrete Representation Learning (VQ-VAE). NIPS 2017.
arXiv:1711.00937
Yang, Z. et al. (2024). HART: High-Quality Autoregressive Image Generation with Hierarchical Attention.
arXiv:2410.07521
Sun, Q. et al. (2024). Emu3: Next-Token Prediction is All You Need.
arXiv:2409.02696