BitDance: Scaling Autoregressive Generative Models with Binary Tokens

2026/05/20 20:23:59

autoregressive binary-token image-generation diffusion-head visual-tokenizer

简介

BitDance 是一篇把自回归图像生成重新拆成三层问题来解决的论文：表示层用高熵 binary visual tokens，采样层用 binary diffusion head，解码层用 next-patch diffusion 做并行预测。它的核心判断是，视觉 AR 的瓶颈不只在 Transformer，也在 tokenizer 的状态空间、采样头的参数化方式、以及逐 token 解码的推理成本。

为什么值得读：它给出了一条和 VQ-VAE、连续 VAE 都不同的路线，用 $2^{256}$ 级别的二进制离散空间保留细节，同时用 diffusion head 避开 softmax 大词表爆炸。实验上，ImageNet 256×256 达到 FID 1.24；文本到图像在 1024×1024 下单 H100 延迟 12.4s，比 NextStep-1 的 402s 快 30 倍以上。

参考链接

arXiv：https://arxiv.org/abs/2602.14041
PDF：https://arxiv.org/pdf/2602.14041
代码：https://github.com/shallowdream204/BitDance
项目页：https://bitdance.csuhan.com
作者/机构：ByteDance；MMLab, CUHK；Shanghai Jiao Tong University；Institute of Automation, CAS；NUS；SIAT, CAS

前置工作资源：

MAGVIT-v2 / LFQ [80]：Language Model Beats Diffusion: Tokenizer is Key to Visual Generation, ICLR 2024
Infinity [29]：Scaling Bitwise Autoregressive Modeling for High-Resolution Image Synthesis, CVPR 2025
MAR [43]：Autoregressive Image Generation without Vector Quantization, NeurIPS 2024
Rectified Flow [45]：Flow Straight and Fast, ICLR 2023

相关工作

BitDance 的位置可以理解为三条路线的交汇。

1. 视觉 tokenizer 路线：VQ-VAE / VQGAN 把图像压成离散 codebook index，方便直接套语言模型式 next-token prediction。但 codebook 越大，越容易出现 codebook collapse 或利用率不稳，导致重建质量被词表规模卡住。MAGVIT-v2 引入 Lookup-Free Quantization (LFQ)，用隐式二进制码本替代显式 codebook，把词表扩展到 $2^{18}$ ；后续 BSQ 和 WeTok 继续处理二进制量化的容量、稳定性、分组问题。BitDance 继承 LFQ/WeTok 的方向，把状态空间推到 $2^{256}$ 。

2. 视觉 AR 生成路线：LlamaGen、Emu3 等离散 AR 模型把图像 token 作为语言 token 来建模，优点是统一、可扩展，问题是 VQ token 重建质量不足。MAR、Fluid、NextStep-1 等连续 token AR 模型绕过 VQ codebook，用 VAE latent 或 diffusion head 采样连续 token，但连续 latent 无边界，长序列生成中容易漂移和误差累积。SphereAR 用 hyperspherical constraint 约束连续 latent。BitDance 的选择更激进：直接把 latent 限制到二进制超立方体顶点。

3. 并行 AR 生成路线：MaskGIT 用 mask-predict，VAR 用 next-scale prediction，PAR 用 grouping，RandAR/ARPG 用随机顺序并行解码。这些方法能加速，但多 token 同时生成时通常仍通过独立分类头采样，等价于默认 patch 内 token 条件独立。BitDance 指出这和并行 AR 的联合分布目标不一致，因此用 binary diffusion head 直接对一个 patch 内多个 binary token 建模联合分布。

引用链 top 3 前置工作补充

前置工作	BitDance 继承了什么	BitDance 认为它哪里不够	BitDance 的改动
MAGVIT-v2 / LFQ [80]	隐式二进制码本 $\mathcal{C}_{LFQ}=\{-1,1\}^d$ ，避免显式 codebook lookup	标准 LFQ entropy loss 对完整码本分布计算，词表继续放大时内存成本高	采用 group-wise LFQ，支持 $2^{256}$ 级状态空间
Infinity [29]	bitwise autoregressive / bit-wise binary modeling 思路	bit-wise independence 只建模 $\prod_i p(b_i)$ ，丢失 bit 间相关性，表 13 中 FID 8.37	用 diffusion head 建模二进制 token 的联合分布，表 13 FID 1.79
MAR [43]	在 AR 框架中用 token-level diffusion head 采样 latent	MAR 面向连续 VAE latent；连续 token 缺少离散约束，可能误差累积	改为 binary token + hard sign 投影；再扩展到 patch-level joint diffusion
Rectified Flow [45]	用 velocity matching 学习从噪声到数据的连续流	原始用于连续数据生成	把二进制 token 当作超立方体顶点，在连续空间中流动，最后投影回 $\{-1,1\}^d$

方法对比表

方法	表示	采样头	并行方式	代表数值
LlamaGen-XXL [61]	VQ discrete token	softmax 分类	raster AR	ImageNet FID 2.34
Infinity [29]	binary token	bit-wise classification	bit-wise AR	DPG-Bench 83.46，GenEval 0.73
MAR-H [43]	continuous VAE token	diffusion head	random masking	ImageNet FID 1.55
RandAR-XXL [52]	VQ token	classification	random order parallel AR	1.4B, 88 steps, 10.39 img/s, FID 2.15
BitDance-B-16x	binary LFQ token	binary diffusion head	next-patch, 16 tokens/step	260M, 16 steps, 90.26 img/s, FID 1.91
BitDance-H-1x	binary LFQ token	binary diffusion head	raster AR	1.0B, ImageNet FID 1.24

前置知识

Autoregressive visual generation: 把图像编码成一串 token，并按 $p(x_n \mid x_{<n})$ 逐步生成。优点是和 LLM 范式统一，缺点是高分辨率下序列很长，逐 token 推理慢。

Visual tokenizer: 把图像压缩到低分辨率 latent/token 空间的编码器。tokenizer 的重建能力直接限制生成模型的上限。

VQ / Vector Quantization: 用有限 codebook 中的向量替换连续 latent。codebook 太小会丢细节，太大容易利用率低或 collapse。

LFQ / Lookup-Free Quantization: 不维护显式 codebook，而把每个 latent channel 二值化到 $\{-1,1\}$ ，隐式形成 $$2^d$$ 个可能码字。

Binary token entropy: 一个 $$d$$ 维二进制 token 理论上有 $$2^d$$ 种状态。BitDance 把这个上限扩到 $2^{256}$ ，试图用超大状态空间提高离散 token 的表达力。

Binary diffusion head: 在连续空间中对 binary token 建模，预测从高斯噪声到二进制顶点的流，最后用 sign 投影回 binary space。

Rectified Flow: 一类生成模型训练目标，学习从噪声到数据的速度场。BitDance 用它作为 diffusion head 的数学基础。

Next-patch diffusion: 把多个局部相邻 token 组成 patch，一次预测一个 patch；patch 之间保持 AR 因果，patch 内允许互相可见并联合采样。

Block-wise causal mask: 注意力 mask 的一种形式，保证模型只能看当前 patch 及之前 patch；同一 patch 内 token 可以相互 attention。

FID: Fréchet Inception Distance，越低越好，用于衡量生成图像分布和真实图像分布的距离。

GenEval / DPG-Bench / OneIG: 文本到图像评测集，分别强调对象组合、语义对齐、文本渲染、推理、风格、多语言等能力。

阅读前疑问

如果 token 状态空间扩到 $2^{256}$ ，真正的收益来自更高重建 fidelity，还是来自二进制约束带来的生成稳定性？
Binary diffusion head 到底是在解决 softmax 参数爆炸，还是也在隐式学习 bit 间结构？如果只换一个低秩分类头会怎样？
Next-patch diffusion 的并行性和质量之间有没有一个临界点？从 16 tokens/step 到 64 tokens/step 质量为什么基本不掉？
论文说二进制 latent 能缓解误差累积，这个机制是几何约束、训练目标，还是 hard sign 投影的共同结果？
$2^{256}$ 这种巨大状态空间是否真的被充分利用，还是只是理论容量？论文是否测了实际 entropy 或 token occupancy？

面临问题及 Insights

BitDance 面对的是视觉自回归生成的三个具体问题。

第一，表示层的问题。离散 AR 模型依赖 VQ tokenizer，但 VQ codebook 很难无痛扩展。词表小则重建差，词表大则 codebook collapse 或利用率不稳。连续 VAE 重建好，但 latent 空间无边界，长序列 AR 生成时每一步的小误差会进入后续条件，形成 representation drift。

第二，采样层的问题。假设一个 binary token 有 $$d$$ 个 bit，如果用标准分类头建模完整联合分布 $p(b_1,b_2,\ldots,b_d)$ ，输出类别数是 $$2^d$$ 。原文给出具体例子：当 hidden dimension $$h=1024$$ 且 $$d=32$$ 时，分类头参数约为 4.4 trillion。Infinity 这类 bit-wise 方法把联合分布拆成 $\prod_{i=1}^{d}p(b_i)$ ，参数降下来了，但 bit 间相关性被切断，表 13 中 FID 8.37，明显差于 BitDance 的 1.79。

第三，解码效率的问题。图像分辨率升高后，token 序列变长，逐 token AR 成本线性增长。并行 AR 方法虽然能一次出多个 token，但如果最后每个 token 独立采样，局部结构会不一致。BitDance 的洞察是：局部 patch 内 token 彼此强相关，应该联合预测，而不是独立抽样。

核心 insight 类比：传统 VQ 像在一本有限字典里选词，字典太小表达不细，字典太大查词和训练都崩；连续 VAE 像自由手写，表达强但容易越写越歪；BitDance 像用 256 个开关组成一个超大但规整的"二进制拼字板"，每个位置只能是开或关，表达空间巨大，同时输出被限制在规则网格上。Diffusion head 则像先在拼字板附近连续移动，最后啪地一下吸附到最近的开关组合。

数据支撑

Tokenizer 重建：16× downsample、 $2^{32}$ codebook 的 BitDance-Tok PSNR 24.90，超过 SD-VAE 23.54；32× downsample、 $2^{256}$ codebook 的 BitDance-Tok PSNR 25.29，超过 DC-AE 24.81。
采样头消融：Token Cls Head OOM；Bit-wise Cls Head FID 8.37；Binary Diff Head FID 1.79。
并行生成：BitDance-B-16x 用 260M 参数、16 steps、90.26 img/s 达到 FID 1.91；RandAR-XXL 用 1.4B 参数、88 steps、10.39 img/s，FID 2.15。
高分辨率成本：1024×1024 文生图单 H100 bfloat16 延迟，BitDance 12.4s，NextStep-1 402s，GLM-Image 53.2s。

模型和方法

总体架构

输入到输出链路如下：

图像输入经 visual tokenizer 编码成 latent token。
LFQ 对每个 latent channel 做二值化，形成 binary visual tokens。隐式码本为 $\mathcal{C}_{LFQ}=\{-1,1\}^d$ 。
对图像 token 按 patch-wise raster scan order 展平。若 patch size 为 $$p$$ ，每个 AR step 生成 $$p^2$$ 个 token。
AR Transformer 接收文本 token、分辨率 token、已生成 visual token。文本到图像场景中，基础模型为 Qwen3-14B。
对下一个 token/patch 的 hidden states，binary diffusion head 通过 Rectified Flow 学习从高斯噪声到 binary token 的速度场。
推理时用 Euler solver 迭代，再用 $\operatorname{sign}$ 投影回 $\{-1,1\}$ ，最后由 decoder 还原图像。

图 4：BitDance 整体架构。图像经 tokenizer 编码为 binary latents，再按 patch-wise raster scan flatten 成一维序列；vision tokens 由 next-patch diffusion 建模，利用 binary diffusion head 做高效精确的并行预测。

Binary Visual Tokenizer

原文公式（1）：

x_q = \operatorname{sign}(x).

解释：给定编码器输出 $x\in\mathbb{R}^d$ ，LFQ 直接逐通道取符号，把连续 latent 投影到二进制超立方体顶点。

原文公式（2）：

\mathcal{L}_{entropy}=\mathbb{E}[H(q(x))]-H[\mathbb{E}(q(x))].

解释：entropy loss 用于防止 codebook collapse 并最大化信息容量。标准 LFQ 需要计算 $$q(x)$$ 与整个码本空间的相似度；当 vocabulary size 随 $$2^d$$ 指数增长时，内存成本变得不可接受。BitDance 采用 group-wise LFQ，把 $$d$$ 个 channel 分成 $$g$$ 组计算 entropy，从而支持 $2^{256}$ codebook size。

Binary Diffusion Head

采样瓶颈来自完整分类头的指数级输出。对 $$d$$ -bit token，标准分类头参数量为 $h\times 2^d$ ； $$h=1024,d=32$$ 时约 4.4T 参数。BitDance 改为把 binary token 当成连续空间中的点，学习条件分布 $p(x\mid z)$ 。

原文公式（3）：

\mathcal{L}(z,x)=\mathbb{E}_{t,x,\epsilon}\left\|v_{\theta}(x_t,t,z)-v_t\right\|^2.

解释：这是 binary diffusion head 的 velocity-matching loss。这里 $x_t=tx+(1-t)\epsilon$ ， $\epsilon\sim\mathcal{N}(0,I)$ ， $v_t=x-\epsilon$ 。模型在 AR hidden state $$z$$ 条件下预测从噪声到 binary token 的速度。

原文中还给出速度参数化：

v_{\theta}(x_t,t,z)=\frac{f_{\theta}(x_t,t,z)-x_t}{1-t}.

解释： $f_{\theta}$ 是 $$x$$ -prediction network，直接预测 clean binary latent，再换算成速度场。

原文公式（4）：

x_{t+\Delta t}=x_t+v_{\theta}(x_t,t,z)\Delta t.

解释：推理时从 $x_0\sim\mathcal{N}(0,I)$ 出发，用 $$N$$ 个均匀 Euler steps 积分， $\Delta t=1/N$ 。最后执行 $x_1=\operatorname{sign}(x_1)$ ，把连续预测投影回 binary hypercube。

图 9：Binary diffusion head 在不同 timestep 的输出分布。当

$t$

小（噪声大）时预测值多聚集在 0 附近；随着

$t$

增大，预测逐渐向 -1 和 1 分离，说明模型即使没有手工设计离散约束，也学到了 binary discrete distribution 的结构。

Next-Patch Diffusion

标准 AR 分解为原文公式（5）：

p(x)=\prod_{n=1}^{N}p(x_n\mid x_1,x_2,\ldots,x_{n-1}).

解释：逐 token 预测，质量稳定但推理慢。

BitDance 把序列分成 $$M$$ 个 patch， $x=[X_1,X_2,\ldots,X_M]$ ，每个 $X_m=\{x_m^1,x_m^2,\ldots,x_m^{p^2}\}$ 。并行 AR 分解为原文公式（6）：

p(x)=\prod_{m=1}^{M}p(X_m\mid X_1,\ldots,X_{m-1}).

解释：生成单位从单个 token 变成一个 patch；patch 间保持自回归，patch 内联合建模。

原文公式（7）：

\mathcal{L}_{parallel}=\mathbb{E}_{t,X,\epsilon}\left\|v_{\theta}(X_t,t,Z)-v_t\right\|^2.

解释：这是公式（3）的多 token 版本。 $X\in\mathbb{R}^{p^2\times d}$ 是一个 patch 内的 ground-truth tokens， $Z\in\mathbb{R}^{p^2\times h}$ 是对应 hidden states。binary diffusion head 被扩展为联合预测一个 patch 的多个 tokens。

与已有方法的采样头对比

采样方式	分布假设	参数/成本	论文结果
Token classification head	建模 $$2^d$$ 类 categorical	$h\times 2^d$ ； $$h=1024,d=32$$ 时约 4.4T 参数	表 13：OOM
Bit-wise classification head	$\prod_{i=1}^{d}p(b_i)$ ，bit 独立	参数可控	表 13：FID 8.37, IS 174.5
Binary diffusion head	在连续空间中联合建模所有 bit	参数可控，需 diffusion steps	表 13：FID 1.79, IS 290.5
Multi-token binary diffusion	联合建模 patch 内 $$p^2$$ tokens	patch 内 diffusion head	表 14：Next-Patch Diffusion FID 1.98

实现技巧

Group-wise LFQ：不在完整 $$2^d$$ 空间上计算 entropy，而按组计算，缓解内存问题。
Hard binarization：采样末尾执行 $x_1=\operatorname{sign}(x_1)$ ，把连续解吸附回二进制顶点。
Lightweight DiT head：binary diffusion head 的预测网络 $f_{\theta}$ 采用轻量 DiT 架构，用于建模 $$p^2$$ tokens。
Block-wise causal attention mask：patch 内 token 相互可见，patch 间保持因果。
Learnable prefix tokens：为了同时预测初始 patch 的所有 tokens，引入 $$p^2-1$$ 个 learnable prefix tokens。
Resolution tokens：文本到图像中在 visual tokens 前加入 [res_i] 和 [res_j]，支持可变分辨率和宽高比。

训练

Tokenizer 训练

主数据集：DataComp-1B [22]
额外数据：高质量 face 和 text datasets，用于改善特定域重建
分辨率：256×256
训练步数：400K steps
Batch size：1024
架构：pure CNN tokenizer
配置：16× downsample + $2^{32}$ codebook；32× downsample + $2^{128}$ codebook；32× downsample + $2^{256}$ codebook
计算成本：训练硬件、GPU 数量、总训练时长原文未明确说明

ImageNet class-conditional AR 训练

数据集：ImageNet-1K，256×256
模型尺寸：BitDance-B/L/H 分别为 24/32/40 Transformer blocks，width 分别为 768/1024/1280
Binary diffusion head：blocks 分别为 6/8/12，width 保持一致
Tokenizer：16× downsampling binary tokenizer trained on ImageNet
训练轮数：800 epochs；消融实验训练 400 epochs
Optimizer：AdamW， $\beta=(0.9,0.95)$
Weight decay：0.05
Batch size：1024
LR schedule：cosine learning rate schedule
Warmup steps：20K
EMA decay：0.9999
计算成本：吞吐评测在单 A100、batch size 64、bfloat16 precision 下进行；训练硬件和总训练时长原文未明确说明

Text-to-image 训练

模型设计：采用 pretrained Qwen3-14B 作为 base AR model；visual tokenizer 选择 16× downsampling；patch size $$p=4$$ ，每步并行预测 $$p^2=16$$ tokens；加入 2D sinusoidal positional embeddings，保留 LLM 的 1D RoPE。

输入格式：

[bos], {text tokens}, [boi], [res_i], [res_j], {visual tokens}, [eoi], [eos]

训练流程：PT → CT → SFT → optional Distill。PT 和 CT 数据来自 LAION 等开源数据；SFT 数据来自开源数据和少量由 Seedream、Z-Image-Turbo 等模型生成的高质量图像；保留少量 image-to-text 数据维持 LLM 文本理解能力。

Stage	LR	Warmup	Steps	Global batch	Samples	Resolution ratio 256:512:1024	Text drop
PT	$1.0\times10^{-4}$	2000	100K	2560	256M	2:7:1	0.1
CT	$1.0\times10^{-4}$	1000	40K	2480	99.2M	0:1:1	0.1
SFT	$2.0\times10^{-5}$	500	40K	2320	92.8M	0:1:1	0.1
Distill	$2.0\times10^{-5}$	500	20K	1536	30.7M	0:0:1	0.1

Optimizer：AdamW， $\beta_1=0.9,\beta_2=0.95,\epsilon=1.0\times10^{-15}$
LR scheduler：constant
Weight decay：0.0
Gradient norm clip：1.0
Loss weight：text : vision = 0.01 : 1，即 vision loss 主导
Visual tokenizer：frozen
Trainable parameters：除 visual tokenizer 外全部 trainable
Distill：从 16-token parallel prediction, $$p=4$$ ，蒸馏到 64-token parallel prediction, $$p=8$$
计算成本：文生图使用 14B 参数模型；1024×1024 latency 在单 H100 GPU、bfloat16 precision 下测量。训练硬件规模、GPU hours、wall-clock time 原文未明确说明

实验

设置与指标

Tokenizer reconstruction：ImageNet 256×256 validation set；指标 PSNR、SSIM、compression ratio
ImageNet class-conditional generation：ImageNet-1K 256×256；指标 FID、IS、Precision、Recall；使用 OpenAI TensorFlow-based evaluation toolkit
Parallel generation efficiency：ImageNet 256×256；吞吐在单 A100、batch size 64、bfloat16 precision 下测量
Text-to-image：GenEval、DPG-Bench、OneIG-EN、OneIG-ZH、TIIF Bench testmini；同时比较 1024×1024 生成延迟
Ablation：ImageNet 256×256，BitDance-B backbone，训练 400 epochs，按 best classifier-free guidance scale 评估

Baseline 对比表：ImageNet 256×256 并行生成

Model	Type	Order	#Params	Steps	Throughput	FID ↓	IS ↑	Pre. ↑	Rec. ↑
DiT-XL/2 [53]	Diff.	-	675M	250	1.06 img/s	2.27	278.2	0.83	0.57
DiCo-XL [3]	Diff.	-	701M	250	2.62 img/s	2.05	282.2	0.83	0.59
MaskGIT [6]	Mask.	random	227M	8	50.73 img/s	6.18	182.1	0.80	0.51
MAR-L [43]	Mask.	random	479M	256	1.39 img/s	1.78	296.0	0.81	0.60
VAR-d24 [66]	VAR	-	1.0B	10	47.22 img/s	2.09	312.9	0.82	0.59
PAR-XXL [70]	AR	hybrid	1.4B	147	5.17 img/s	2.35	263.2	0.80	0.62
RandAR-XXL [52]	AR	random	1.4B	88	10.39 img/s	2.15	322.0	0.79	0.62
BitDance-B-4x	AR	raster	260M	64	24.18 img/s	1.69	291.2	0.79	0.63
BitDance-B-16x	AR	raster	260M	16	90.26 img/s	1.91	283.8	0.78	0.62

Tokenizer reconstruction 表

Method	Tokenizer Type	Downsample	Codebook Size	Compression Ratio	PSNR ↑	SSIM ↑
SD-VAE [57]	Continuous	8	-	24	23.54	0.68
Open-MAGVIT2 [47]	Discrete	16	$2^{18}$	341	22.70	0.64
Infinity [29]	Discrete	16	$2^{32}$	192	22.70	-
BitDance-Tok	Discrete	16	$2^{32}$	192	24.90	0.72
DC-AE [10]	Continuous	32	-	48	24.81	0.69
BitDance-Tok	Discrete	32	$2^{128}$	192	23.26	0.67
BitDance-Tok	Discrete	32	$2^{256}$	96	25.29	0.74

Text-to-image 关键结果

Benchmark	BitDance	关键对比
DPG-Bench Overall	88.28	Qwen-Image 88.32，Z-Image 88.14，NextStep-1 85.28，GLM-Image 84.78
GenEval Overall	0.86	BAGEL 0.88，Qwen-Image 0.87，Tar 0.84，Infinity 0.73，NextStep-1 0.73
OneIG-EN Overall	0.532	GPT Image 1 0.533，Seedream 3.0 0.530，GLM-Image 0.528，NextStep-1 0.418
OneIG-ZH Overall	0.512	Qwen-Image 0.548，Z-Image 0.535，GLM-Image 0.511，Janus-Pro 0.240

1024×1024 计算成本与效率

Latency measured using single H100 GPU with bfloat16 precision.

Model	Type	#Params	Latency-1024
BAGEL [16]	Diffusion	7B	23.1s
Qwen-Image [64]	Diffusion	20B	20.3s
Z-Image [65]	Diffusion	6B	21.1s
NextStep-1 [63]	Autoregressive	14B	402s
GLM-Image [83]	Autoregressive	16B	53.2s
BitDance	Autoregressive	14B	12.4s

效果

主实验结论

重建质量：BitDance-Tok 证明二进制离散 token 可以追上甚至超过连续 VAE。16× 下 $2^{32}$ codebook PSNR 24.90，优于 SD-VAE 23.54；32× 下 $2^{256}$ codebook PSNR 25.29，优于 DC-AE 24.81。
ImageNet class-conditional generation：BitDance-H-1x 以 1.0B 参数达到 FID 1.24、IS 304.4、Precision 0.81、Recall 0.64。在 AR 模型中是最强结果之一，同时仍使用 raster-order 标准 AR。
并行生成：BitDance-B-4x 用 260M 参数、64 steps、24.18 img/s 达到 FID 1.69；BitDance-B-16x 进一步到 16 steps、90.26 img/s，FID 1.91。相比 RandAR-XXL 的 1.4B、88 steps、10.39 img/s、FID 2.15，BitDance 以 5.4× 更少参数获得 8.7× 吞吐加速，并且 FID 更低。
文生图：BitDance 在 DPG-Bench 88.28、GenEval 0.86、OneIG-EN 0.532、OneIG-ZH 0.512。在多个 benchmark 上于 autoregressive models 中达到 SOTA；其中 TIIF testmini 为 AR 模型中第二；相对 proprietary/diffusion models 则为 comparable，但并非全面最优。文生图训练阶段使用少于 450M image-text pairs，tokenizer 预训练另用 DataComp-1B，论文据此强调数据效率。

消融实验发现

消融使用 BitDance-B backbone，在 ImageNet 256×256 上训练 400 epochs。

消融项	Variant	FID ↓	IS ↑	发现
Tokenizer	MAR's VAE [43]	3.16	289.9	连续 VAE token 在 AR 中表现显著差于 binary token，说明无约束连续 latent 易误差累积
Tokenizer	VA-VAE [79]	4.84	273.7	更差，进一步支持 tokenizer/latent 约束的重要性
Tokenizer	BitDance-Tok	1.79	290.5	binary tokenizer 最优
Sampling head	Token Cls Head	OOM	OOM	完整分类头参数量爆炸
Sampling head	Bit-wise Cls Head	8.37	174.5	bit 独立假设破坏采样质量
Sampling head	Binary Diff Head	1.79	290.5	联合建模 bit 分布是关键
Next-patch design	Next-Patch Diffusion	1.98	276.7	完整设计最优
Next-patch design	Block-wise → Full	2.07	271.8	attention mask 设计影响局部一致性
Next-patch design	Patch → Token Raster	2.15	270.0	patch-wise raster scan 优于 token raster 替代

重要细节：论文还报告 diffusion sampling steps 的影响，图 8 显示 binary diffusion head 用 as few as 10 steps 就能得到较好结果。这说明二进制目标空间的有限顶点结构降低了采样难度。

SFT 到 distilled 的并行数提升：

Model	#Tokens per step	DPG-Bench	GenEval
SFT	16	88.28	0.86
Distilled	64	88.30	0.85

这说明从 16-token parallel prediction 蒸馏到 64-token parallel prediction 后，DPG-Bench 基本不掉，GenEval 只从 0.86 到 0.85。

失败案例与局限性

小 Transformer 难以利用大词表：图 6 明确指出，对于 large vocabularies，small Transformers struggle to converge；scaling vocabulary size requires concurrent expansion of Transformer size。因此 $2^{256}$ 不是免费午餐，模型容量不足时反而难训练。
Token classification head 直接不可用：表 13 中 Token Cls Head 为 OOM。这个失败不是质量下降，而是参数/显存层面无法运行。原文例子 $$h=1024,d=32$$ 已达到约 4.4T 参数。
Bit-wise independence 失败很明显：表 13 中 Bit-wise Cls Head FID 8.37、IS 174.5，远差于 Binary Diff Head FID 1.79、IS 290.5。说明 binary token 的 bit 之间相关性很强，强行拆独立会造成采样精度崩塌。
高并行蒸馏仍有轻微能力损失：SFT 16 tokens/step 的 GenEval 为 0.86，Distilled 64 tokens/step 为 0.85。DPG-Bench 不降反升到 88.30，但 GenEval 有 0.01 下滑，说明更高并行度并非完全无损。
长序列/高分辨率训练细节披露不足：训练硬件规模、GPU hours、wall-clock time、per-GPU batch size 原文未明确说明；这会影响复现成本评估。
文生图仍非所有指标最强：OneIG-ZH Overall 为 0.512，低于 Qwen-Image 0.548 和 Z-Image 0.535；GenEval 0.86 低于 BAGEL 0.88、Qwen-Image 0.87。这说明 BitDance 的 AR 路线很强，但并未全面超过扩散/商业模型。

结论

论文自己的结论是：BitDance 证明了 scaling token entropy 可以让离散视觉 tokenizer 达到甚至超过连续 VAE 的重建质量；binary diffusion head 能解决超大二进制词表的采样瓶颈；next-patch diffusion 能把 binary diffusion head 扩展到多 token 联合预测，从而实现高质量并行 AR 生成。

核心贡献可以压缩成三句话：

用 $\{-1,1\}^d$ 二进制 token 扩大视觉离散表示空间，最高到 $2^{256}$ 。
用 Rectified Flow / velocity matching 的 binary diffusion head 取代不可扩展的 softmax 分类头和过强的 bit-wise independence（文生图训练中仍额外保留 text-token cross-entropy loss）。
用 next-patch diffusion 对 patch 内 token 做联合采样，解决并行 AR 的训练-推理目标错配。

局限性：大词表需要更大 Transformer 才能稳定收敛；论文未公开训练硬件和总计算量；失败案例没有系统披露；文生图仍有部分 benchmark 低于最强商业/扩散模型；高并行蒸馏在 GenEval 上有轻微下降。

未来方向：论文提到希望进一步扩大数据和模型规模，并探索 BitDance 在更广泛 multimodal tasks 中的潜力。更具体的可研究方向包括：测试 binary token 在视频生成中的时序稳定性；研究真实 entropy/utilization；把 binary diffusion head 与低步数蒸馏结合；探索不同 patch size 下质量和延迟的 Pareto frontier。

收获

做视觉 AR 时，tokenizer 不只是预处理模块。BitDance 的结果说明 tokenizer 的几何约束会直接影响 AR 的误差累积。如果要做多模态生成模型，应该把 tokenizer、sampling head、decoding schedule 当成一个整体优化。
大词表不一定要 softmax。当类别空间是结构化的，例如 binary hypercube，可以换成连续生成头来建模联合分布。这个思想可以迁移到离散动作空间、结构化代码 token、离散 3D token 等场景。
并行 AR 的关键不是"一次预测多个 token"，而是"联合采样多个 token"。如果训练目标和推理采样都没有建模 patch 内联合分布，并行可能带来局部结构断裂。Next-patch diffusion 给了一个可复用模板。
二进制约束是抗漂移机制。连续 latent 容易在高维空间里漂移，binary token 最后被 sign 投影回固定顶点集合。这个机制在长序列生成、视频 autoregressive rollout、robot trajectory tokenization 中都值得尝试。
效率优化可以后置蒸馏。BitDance 先训练 16-token parallel prediction，再用少量高质量数据蒸馏到 64-token parallel prediction，质量基本保持。这给高分辨率生成模型一个实用路径：先保质量，再扩并行度。
复现时优先抓三个超参数：binary token 维度/词表规模、patch size $$p$$ 、binary diffusion head 的 sampling steps。论文图 8 暗示 10 steps 已经可用，表 10 暗示 $$p=8$$ 的 64-token 并行需要蒸馏才能稳。

BitDance

参考来源