ESC
输入关键词搜索文章
目录

BitDance

AR 图像生成 · 2026
用二进制离散空间 + Binary Diffusion Head + Next-Patch Diffusion 重构视觉 AR 生成
简介

BitDance 是一篇把自回归图像生成重新拆成三层问题来解决的论文:表示层用高熵 binary visual tokens,采样层用 binary diffusion head,解码层用 next-patch diffusion 做并行预测。它的核心判断是,视觉 AR 的瓶颈不只在 Transformer,也在 tokenizer 的状态空间、采样头的参数化方式、以及逐 token 解码的推理成本。

为什么值得读:它给出了一条和 VQ-VAE、连续 VAE 都不同的路线,用 $2^{256}$ 级别的二进制离散空间保留细节,同时用 diffusion head 避开 softmax 大词表爆炸。实验上,ImageNet 256×256 达到 FID 1.24;文本到图像在 1024×1024 下单 H100 延迟 12.4s,比 NextStep-1 的 402s 快 30 倍以上。

参考链接

前置工作资源

  • MAGVIT-v2 / LFQ [80]:Language Model Beats Diffusion: Tokenizer is Key to Visual Generation, ICLR 2024
  • Infinity [29]:Scaling Bitwise Autoregressive Modeling for High-Resolution Image Synthesis, CVPR 2025
  • MAR [43]:Autoregressive Image Generation without Vector Quantization, NeurIPS 2024
  • Rectified Flow [45]:Flow Straight and Fast, ICLR 2023
相关工作

BitDance 的位置可以理解为三条路线的交汇。

1. 视觉 tokenizer 路线:VQ-VAE / VQGAN 把图像压成离散 codebook index,方便直接套语言模型式 next-token prediction。但 codebook 越大,越容易出现 codebook collapse 或利用率不稳,导致重建质量被词表规模卡住。MAGVIT-v2 引入 Lookup-Free Quantization (LFQ),用隐式二进制码本替代显式 codebook,把词表扩展到 $2^{18}$;后续 BSQ 和 WeTok 继续处理二进制量化的容量、稳定性、分组问题。BitDance 继承 LFQ/WeTok 的方向,把状态空间推到 $2^{256}$

2. 视觉 AR 生成路线:LlamaGen、Emu3 等离散 AR 模型把图像 token 作为语言 token 来建模,优点是统一、可扩展,问题是 VQ token 重建质量不足。MAR、Fluid、NextStep-1 等连续 token AR 模型绕过 VQ codebook,用 VAE latent 或 diffusion head 采样连续 token,但连续 latent 无边界,长序列生成中容易漂移和误差累积。SphereAR 用 hyperspherical constraint 约束连续 latent。BitDance 的选择更激进:直接把 latent 限制到二进制超立方体顶点。

3. 并行 AR 生成路线:MaskGIT 用 mask-predict,VAR 用 next-scale prediction,PAR 用 grouping,RandAR/ARPG 用随机顺序并行解码。这些方法能加速,但多 token 同时生成时通常仍通过独立分类头采样,等价于默认 patch 内 token 条件独立。BitDance 指出这和并行 AR 的联合分布目标不一致,因此用 binary diffusion head 直接对一个 patch 内多个 binary token 建模联合分布。

引用链 top 3 前置工作补充
前置工作BitDance 继承了什么BitDance 认为它哪里不够BitDance 的改动
MAGVIT-v2 / LFQ [80]隐式二进制码本 $\mathcal{C}_{LFQ}=\{-1,1\}^d$,避免显式 codebook lookup标准 LFQ entropy loss 对完整码本分布计算,词表继续放大时内存成本高采用 group-wise LFQ,支持 $2^{256}$ 级状态空间
Infinity [29]bitwise autoregressive / bit-wise binary modeling 思路bit-wise independence 只建模 $\prod_i p(b_i)$,丢失 bit 间相关性,表 13 中 FID 8.37用 diffusion head 建模二进制 token 的联合分布,表 13 FID 1.79
MAR [43]在 AR 框架中用 token-level diffusion head 采样 latentMAR 面向连续 VAE latent;连续 token 缺少离散约束,可能误差累积改为 binary token + hard sign 投影;再扩展到 patch-level joint diffusion
Rectified Flow [45]用 velocity matching 学习从噪声到数据的连续流原始用于连续数据生成把二进制 token 当作超立方体顶点,在连续空间中流动,最后投影回 $\{-1,1\}^d$
方法对比表
方法表示采样头并行方式代表数值
LlamaGen-XXL [61]VQ discrete tokensoftmax 分类raster ARImageNet FID 2.34
Infinity [29]binary tokenbit-wise classificationbit-wise ARDPG-Bench 83.46,GenEval 0.73
MAR-H [43]continuous VAE tokendiffusion headrandom maskingImageNet FID 1.55
RandAR-XXL [52]VQ tokenclassificationrandom order parallel AR1.4B, 88 steps, 10.39 img/s, FID 2.15
BitDance-B-16xbinary LFQ tokenbinary diffusion headnext-patch, 16 tokens/step260M, 16 steps, 90.26 img/s, FID 1.91
BitDance-H-1xbinary LFQ tokenbinary diffusion headraster AR1.0B, ImageNet FID 1.24
前置知识
  • Autoregressive visual generation
    把图像编码成一串 token,并按 $p(x_n \mid x_{<n})$ 逐步生成。优点是和 LLM 范式统一,缺点是高分辨率下序列很长,逐 token 推理慢。
  • Visual tokenizer
    把图像压缩到低分辨率 latent/token 空间的编码器。tokenizer 的重建能力直接限制生成模型的上限。
  • VQ / Vector Quantization
    用有限 codebook 中的向量替换连续 latent。codebook 太小会丢细节,太大容易利用率低或 collapse。
  • LFQ / Lookup-Free Quantization
    不维护显式 codebook,而把每个 latent channel 二值化到 $\{-1,1\}$,隐式形成 $2^d$ 个可能码字。
  • Binary token entropy
    一个 $d$ 维二进制 token 理论上有 $2^d$ 种状态。BitDance 把这个上限扩到 $2^{256}$,试图用超大状态空间提高离散 token 的表达力。
  • Binary diffusion head
    在连续空间中对 binary token 建模,预测从高斯噪声到二进制顶点的流,最后用 sign 投影回 binary space。
  • Rectified Flow
    一类生成模型训练目标,学习从噪声到数据的速度场。BitDance 用它作为 diffusion head 的数学基础。
  • Next-patch diffusion
    把多个局部相邻 token 组成 patch,一次预测一个 patch;patch 之间保持 AR 因果,patch 内允许互相可见并联合采样。
  • Block-wise causal mask
    注意力 mask 的一种形式,保证模型只能看当前 patch 及之前 patch;同一 patch 内 token 可以相互 attention。
  • FID
    Fréchet Inception Distance,越低越好,用于衡量生成图像分布和真实图像分布的距离。
  • GenEval / DPG-Bench / OneIG
    文本到图像评测集,分别强调对象组合、语义对齐、文本渲染、推理、风格、多语言等能力。
阅读前疑问
  1. 如果 token 状态空间扩到 $2^{256}$,真正的收益来自更高重建 fidelity,还是来自二进制约束带来的生成稳定性?
  2. Binary diffusion head 到底是在解决 softmax 参数爆炸,还是也在隐式学习 bit 间结构?如果只换一个低秩分类头会怎样?
  3. Next-patch diffusion 的并行性和质量之间有没有一个临界点?从 16 tokens/step 到 64 tokens/step 质量为什么基本不掉?
  4. 论文说二进制 latent 能缓解误差累积,这个机制是几何约束、训练目标,还是 hard sign 投影的共同结果?
  5. $2^{256}$ 这种巨大状态空间是否真的被充分利用,还是只是理论容量?论文是否测了实际 entropy 或 token occupancy?
面临问题及 Insights

BitDance 面对的是视觉自回归生成的三个具体问题。

第一,表示层的问题。离散 AR 模型依赖 VQ tokenizer,但 VQ codebook 很难无痛扩展。词表小则重建差,词表大则 codebook collapse 或利用率不稳。连续 VAE 重建好,但 latent 空间无边界,长序列 AR 生成时每一步的小误差会进入后续条件,形成 representation drift。

第二,采样层的问题。假设一个 binary token 有 $d$ 个 bit,如果用标准分类头建模完整联合分布 $p(b_1,b_2,\ldots,b_d)$,输出类别数是 $2^d$。原文给出具体例子:当 hidden dimension $h=1024$$d=32$ 时,分类头参数约为 4.4 trillion。Infinity 这类 bit-wise 方法把联合分布拆成 $\prod_{i=1}^{d}p(b_i)$,参数降下来了,但 bit 间相关性被切断,表 13 中 FID 8.37,明显差于 BitDance 的 1.79。

第三,解码效率的问题。图像分辨率升高后,token 序列变长,逐 token AR 成本线性增长。并行 AR 方法虽然能一次出多个 token,但如果最后每个 token 独立采样,局部结构会不一致。BitDance 的洞察是:局部 patch 内 token 彼此强相关,应该联合预测,而不是独立抽样。

核心 insight 类比:传统 VQ 像在一本有限字典里选词,字典太小表达不细,字典太大查词和训练都崩;连续 VAE 像自由手写,表达强但容易越写越歪;BitDance 像用 256 个开关组成一个超大但规整的"二进制拼字板",每个位置只能是开或关,表达空间巨大,同时输出被限制在规则网格上。Diffusion head 则像先在拼字板附近连续移动,最后啪地一下吸附到最近的开关组合。

数据支撑
  • Tokenizer 重建:16× downsample、$2^{32}$ codebook 的 BitDance-Tok PSNR 24.90,超过 SD-VAE 23.54;32× downsample、$2^{256}$ codebook 的 BitDance-Tok PSNR 25.29,超过 DC-AE 24.81。
  • 采样头消融:Token Cls Head OOM;Bit-wise Cls Head FID 8.37;Binary Diff Head FID 1.79。
  • 并行生成:BitDance-B-16x 用 260M 参数、16 steps、90.26 img/s 达到 FID 1.91;RandAR-XXL 用 1.4B 参数、88 steps、10.39 img/s,FID 2.15。
  • 高分辨率成本:1024×1024 文生图单 H100 bfloat16 延迟,BitDance 12.4s,NextStep-1 402s,GLM-Image 53.2s。
模型和方法
总体架构

输入到输出链路如下:

  1. 图像输入经 visual tokenizer 编码成 latent token。
  2. LFQ 对每个 latent channel 做二值化,形成 binary visual tokens。隐式码本为 $\mathcal{C}_{LFQ}=\{-1,1\}^d$
  3. 对图像 token 按 patch-wise raster scan order 展平。若 patch size 为 $p$,每个 AR step 生成 $p^2$ 个 token。
  4. AR Transformer 接收文本 token、分辨率 token、已生成 visual token。文本到图像场景中,基础模型为 Qwen3-14B。
  5. 对下一个 token/patch 的 hidden states,binary diffusion head 通过 Rectified Flow 学习从高斯噪声到 binary token 的速度场。
  6. 推理时用 Euler solver 迭代,再用 $\operatorname{sign}$ 投影回 $\{-1,1\}$,最后由 decoder 还原图像。
BitDance 整体架构
图 4:BitDance 整体架构。图像经 tokenizer 编码为 binary latents,再按 patch-wise raster scan flatten 成一维序列;vision tokens 由 next-patch diffusion 建模,利用 binary diffusion head 做高效精确的并行预测。
Binary Visual Tokenizer

原文公式(1):

$$x_q = \operatorname{sign}(x).$$

解释:给定编码器输出 $x\in\mathbb{R}^d$,LFQ 直接逐通道取符号,把连续 latent 投影到二进制超立方体顶点。

原文公式(2):

$$\mathcal{L}_{entropy}=\mathbb{E}[H(q(x))]-H[\mathbb{E}(q(x))].$$

解释:entropy loss 用于防止 codebook collapse 并最大化信息容量。标准 LFQ 需要计算 $q(x)$ 与整个码本空间的相似度;当 vocabulary size 随 $2^d$ 指数增长时,内存成本变得不可接受。BitDance 采用 group-wise LFQ,把 $d$ 个 channel 分成 $g$ 组计算 entropy,从而支持 $2^{256}$ codebook size。

Binary Diffusion Head

采样瓶颈来自完整分类头的指数级输出。对 $d$-bit token,标准分类头参数量为 $h\times 2^d$$h=1024,d=32$ 时约 4.4T 参数。BitDance 改为把 binary token 当成连续空间中的点,学习条件分布 $p(x\mid z)$

原文公式(3):

$$\mathcal{L}(z,x)=\mathbb{E}_{t,x,\epsilon}\left\|v_{\theta}(x_t,t,z)-v_t\right\|^2.$$

解释:这是 binary diffusion head 的 velocity-matching loss。这里 $x_t=tx+(1-t)\epsilon$$\epsilon\sim\mathcal{N}(0,I)$$v_t=x-\epsilon$。模型在 AR hidden state $z$ 条件下预测从噪声到 binary token 的速度。

原文中还给出速度参数化:

$$v_{\theta}(x_t,t,z)=\frac{f_{\theta}(x_t,t,z)-x_t}{1-t}.$$

解释:$f_{\theta}$$x$-prediction network,直接预测 clean binary latent,再换算成速度场。

原文公式(4):

$$x_{t+\Delta t}=x_t+v_{\theta}(x_t,t,z)\Delta t.$$

解释:推理时从 $x_0\sim\mathcal{N}(0,I)$ 出发,用 $N$ 个均匀 Euler steps 积分,$\Delta t=1/N$。最后执行 $x_1=\operatorname{sign}(x_1)$,把连续预测投影回 binary hypercube。

Binary diffusion head 输出分布
图 9:Binary diffusion head 在不同 timestep 的输出分布。当 $t$ 小(噪声大)时预测值多聚集在 0 附近;随着 $t$ 增大,预测逐渐向 -1 和 1 分离,说明模型即使没有手工设计离散约束,也学到了 binary discrete distribution 的结构。
Next-Patch Diffusion

标准 AR 分解为原文公式(5):

$$p(x)=\prod_{n=1}^{N}p(x_n\mid x_1,x_2,\ldots,x_{n-1}).$$

解释:逐 token 预测,质量稳定但推理慢。

BitDance 把序列分成 $M$ 个 patch,$x=[X_1,X_2,\ldots,X_M]$,每个 $X_m=\{x_m^1,x_m^2,\ldots,x_m^{p^2}\}$。并行 AR 分解为原文公式(6):

$$p(x)=\prod_{m=1}^{M}p(X_m\mid X_1,\ldots,X_{m-1}).$$

解释:生成单位从单个 token 变成一个 patch;patch 间保持自回归,patch 内联合建模。

原文公式(7):

$$\mathcal{L}_{parallel}=\mathbb{E}_{t,X,\epsilon}\left\|v_{\theta}(X_t,t,Z)-v_t\right\|^2.$$

解释:这是公式(3)的多 token 版本。$X\in\mathbb{R}^{p^2\times d}$ 是一个 patch 内的 ground-truth tokens,$Z\in\mathbb{R}^{p^2\times h}$ 是对应 hidden states。binary diffusion head 被扩展为联合预测一个 patch 的多个 tokens。

与已有方法的采样头对比
采样方式分布假设参数/成本论文结果
Token classification head建模 $2^d$ 类 categorical$h\times 2^d$$h=1024,d=32$ 时约 4.4T 参数表 13:OOM
Bit-wise classification head$\prod_{i=1}^{d}p(b_i)$,bit 独立参数可控表 13:FID 8.37, IS 174.5
Binary diffusion head在连续空间中联合建模所有 bit参数可控,需 diffusion steps表 13:FID 1.79, IS 290.5
Multi-token binary diffusion联合建模 patch 内 $p^2$ tokenspatch 内 diffusion head表 14:Next-Patch Diffusion FID 1.98
实现技巧
  • Group-wise LFQ:不在完整 $2^d$ 空间上计算 entropy,而按组计算,缓解内存问题。
  • Hard binarization:采样末尾执行 $x_1=\operatorname{sign}(x_1)$,把连续解吸附回二进制顶点。
  • Lightweight DiT head:binary diffusion head 的预测网络 $f_{\theta}$ 采用轻量 DiT 架构,用于建模 $p^2$ tokens。
  • Block-wise causal attention mask:patch 内 token 相互可见,patch 间保持因果。
  • Learnable prefix tokens:为了同时预测初始 patch 的所有 tokens,引入 $p^2-1$ 个 learnable prefix tokens。
  • Resolution tokens:文本到图像中在 visual tokens 前加入 [res_i][res_j],支持可变分辨率和宽高比。
训练
Tokenizer 训练
  • 主数据集:DataComp-1B [22]
  • 额外数据:高质量 face 和 text datasets,用于改善特定域重建
  • 分辨率:256×256
  • 训练步数:400K steps
  • Batch size:1024
  • 架构:pure CNN tokenizer
  • 配置:16× downsample + $2^{32}$ codebook;32× downsample + $2^{128}$ codebook;32× downsample + $2^{256}$ codebook
  • 计算成本:训练硬件、GPU 数量、总训练时长原文未明确说明
ImageNet class-conditional AR 训练
  • 数据集:ImageNet-1K,256×256
  • 模型尺寸:BitDance-B/L/H 分别为 24/32/40 Transformer blocks,width 分别为 768/1024/1280
  • Binary diffusion head:blocks 分别为 6/8/12,width 保持一致
  • Tokenizer:16× downsampling binary tokenizer trained on ImageNet
  • 训练轮数:800 epochs;消融实验训练 400 epochs
  • Optimizer:AdamW,$\beta=(0.9,0.95)$
  • Weight decay:0.05
  • Batch size:1024
  • LR schedule:cosine learning rate schedule
  • Warmup steps:20K
  • EMA decay:0.9999
  • 计算成本:吞吐评测在单 A100、batch size 64、bfloat16 precision 下进行;训练硬件和总训练时长原文未明确说明
Text-to-image 训练

模型设计:采用 pretrained Qwen3-14B 作为 base AR model;visual tokenizer 选择 16× downsampling;patch size $p=4$,每步并行预测 $p^2=16$ tokens;加入 2D sinusoidal positional embeddings,保留 LLM 的 1D RoPE。

输入格式

[bos], {text tokens}, [boi], [res_i], [res_j], {visual tokens}, [eoi], [eos]

训练流程:PT → CT → SFT → optional Distill。PT 和 CT 数据来自 LAION 等开源数据;SFT 数据来自开源数据和少量由 Seedream、Z-Image-Turbo 等模型生成的高质量图像;保留少量 image-to-text 数据维持 LLM 文本理解能力。

StageLRWarmupStepsGlobal batchSamplesResolution ratio 256:512:1024Text drop
PT$1.0\times10^{-4}$2000100K2560256M2:7:10.1
CT$1.0\times10^{-4}$100040K248099.2M0:1:10.1
SFT$2.0\times10^{-5}$50040K232092.8M0:1:10.1
Distill$2.0\times10^{-5}$50020K153630.7M0:0:10.1
  • Optimizer:AdamW,$\beta_1=0.9,\beta_2=0.95,\epsilon=1.0\times10^{-15}$
  • LR scheduler:constant
  • Weight decay:0.0
  • Gradient norm clip:1.0
  • Loss weight:text : vision = 0.01 : 1,即 vision loss 主导
  • Visual tokenizer:frozen
  • Trainable parameters:除 visual tokenizer 外全部 trainable
  • Distill:从 16-token parallel prediction, $p=4$,蒸馏到 64-token parallel prediction, $p=8$
  • 计算成本:文生图使用 14B 参数模型;1024×1024 latency 在单 H100 GPU、bfloat16 precision 下测量。训练硬件规模、GPU hours、wall-clock time 原文未明确说明
实验
设置与指标
  1. Tokenizer reconstruction:ImageNet 256×256 validation set;指标 PSNR、SSIM、compression ratio
  2. ImageNet class-conditional generation:ImageNet-1K 256×256;指标 FID、IS、Precision、Recall;使用 OpenAI TensorFlow-based evaluation toolkit
  3. Parallel generation efficiency:ImageNet 256×256;吞吐在单 A100、batch size 64、bfloat16 precision 下测量
  4. Text-to-image:GenEval、DPG-Bench、OneIG-EN、OneIG-ZH、TIIF Bench testmini;同时比较 1024×1024 生成延迟
  5. Ablation:ImageNet 256×256,BitDance-B backbone,训练 400 epochs,按 best classifier-free guidance scale 评估
Baseline 对比表:ImageNet 256×256 并行生成
ModelTypeOrder#ParamsStepsThroughputFID ↓IS ↑Pre. ↑Rec. ↑
DiT-XL/2 [53]Diff.-675M2501.06 img/s2.27278.20.830.57
DiCo-XL [3]Diff.-701M2502.62 img/s2.05282.20.830.59
MaskGIT [6]Mask.random227M850.73 img/s6.18182.10.800.51
MAR-L [43]Mask.random479M2561.39 img/s1.78296.00.810.60
VAR-d24 [66]VAR-1.0B1047.22 img/s2.09312.90.820.59
PAR-XXL [70]ARhybrid1.4B1475.17 img/s2.35263.20.800.62
RandAR-XXL [52]ARrandom1.4B8810.39 img/s2.15322.00.790.62
BitDance-B-4xARraster260M6424.18 img/s1.69291.20.790.63
BitDance-B-16xARraster260M1690.26 img/s1.91283.80.780.62
Tokenizer reconstruction 表
MethodTokenizer TypeDownsampleCodebook SizeCompression RatioPSNR ↑SSIM ↑
SD-VAE [57]Continuous8-2423.540.68
Open-MAGVIT2 [47]Discrete16$2^{18}$34122.700.64
Infinity [29]Discrete16$2^{32}$19222.70-
BitDance-TokDiscrete16$2^{32}$19224.900.72
DC-AE [10]Continuous32-4824.810.69
BitDance-TokDiscrete32$2^{128}$19223.260.67
BitDance-TokDiscrete32$2^{256}$9625.290.74
Text-to-image 关键结果
BenchmarkBitDance关键对比
DPG-Bench Overall88.28Qwen-Image 88.32,Z-Image 88.14,NextStep-1 85.28,GLM-Image 84.78
GenEval Overall0.86BAGEL 0.88,Qwen-Image 0.87,Tar 0.84,Infinity 0.73,NextStep-1 0.73
OneIG-EN Overall0.532GPT Image 1 0.533,Seedream 3.0 0.530,GLM-Image 0.528,NextStep-1 0.418
OneIG-ZH Overall0.512Qwen-Image 0.548,Z-Image 0.535,GLM-Image 0.511,Janus-Pro 0.240
1024×1024 计算成本与效率

Latency measured using single H100 GPU with bfloat16 precision.

ModelType#ParamsLatency-1024
BAGEL [16]Diffusion7B23.1s
Qwen-Image [64]Diffusion20B20.3s
Z-Image [65]Diffusion6B21.1s
NextStep-1 [63]Autoregressive14B402s
GLM-Image [83]Autoregressive16B53.2s
BitDanceAutoregressive14B12.4s
效果
主实验结论
  1. 重建质量:BitDance-Tok 证明二进制离散 token 可以追上甚至超过连续 VAE。16× 下 $2^{32}$ codebook PSNR 24.90,优于 SD-VAE 23.54;32× 下 $2^{256}$ codebook PSNR 25.29,优于 DC-AE 24.81。
  2. ImageNet class-conditional generation:BitDance-H-1x 以 1.0B 参数达到 FID 1.24、IS 304.4、Precision 0.81、Recall 0.64。在 AR 模型中是最强结果之一,同时仍使用 raster-order 标准 AR。
  3. 并行生成:BitDance-B-4x 用 260M 参数、64 steps、24.18 img/s 达到 FID 1.69;BitDance-B-16x 进一步到 16 steps、90.26 img/s,FID 1.91。相比 RandAR-XXL 的 1.4B、88 steps、10.39 img/s、FID 2.15,BitDance 以 5.4× 更少参数获得 8.7× 吞吐加速,并且 FID 更低。
  4. 文生图:BitDance 在 DPG-Bench 88.28、GenEval 0.86、OneIG-EN 0.532、OneIG-ZH 0.512。在多个 benchmark 上于 autoregressive models 中达到 SOTA;其中 TIIF testmini 为 AR 模型中第二;相对 proprietary/diffusion models 则为 comparable,但并非全面最优。文生图训练阶段使用少于 450M image-text pairs,tokenizer 预训练另用 DataComp-1B,论文据此强调数据效率。
消融实验发现

消融使用 BitDance-B backbone,在 ImageNet 256×256 上训练 400 epochs。

消融项VariantFID ↓IS ↑发现
TokenizerMAR's VAE [43]3.16289.9连续 VAE token 在 AR 中表现显著差于 binary token,说明无约束连续 latent 易误差累积
TokenizerVA-VAE [79]4.84273.7更差,进一步支持 tokenizer/latent 约束的重要性
TokenizerBitDance-Tok1.79290.5binary tokenizer 最优
Sampling headToken Cls HeadOOMOOM完整分类头参数量爆炸
Sampling headBit-wise Cls Head8.37174.5bit 独立假设破坏采样质量
Sampling headBinary Diff Head1.79290.5联合建模 bit 分布是关键
Next-patch designNext-Patch Diffusion1.98276.7完整设计最优
Next-patch designBlock-wise → Full2.07271.8attention mask 设计影响局部一致性
Next-patch designPatch → Token Raster2.15270.0patch-wise raster scan 优于 token raster 替代

重要细节:论文还报告 diffusion sampling steps 的影响,图 8 显示 binary diffusion head 用 as few as 10 steps 就能得到较好结果。这说明二进制目标空间的有限顶点结构降低了采样难度。

SFT 到 distilled 的并行数提升

Model#Tokens per stepDPG-BenchGenEval
SFT1688.280.86
Distilled6488.300.85

这说明从 16-token parallel prediction 蒸馏到 64-token parallel prediction 后,DPG-Bench 基本不掉,GenEval 只从 0.86 到 0.85。

失败案例与局限性
  1. 小 Transformer 难以利用大词表:图 6 明确指出,对于 large vocabularies,small Transformers struggle to converge;scaling vocabulary size requires concurrent expansion of Transformer size。因此 $2^{256}$ 不是免费午餐,模型容量不足时反而难训练。
  2. Token classification head 直接不可用:表 13 中 Token Cls Head 为 OOM。这个失败不是质量下降,而是参数/显存层面无法运行。原文例子 $h=1024,d=32$ 已达到约 4.4T 参数。
  3. Bit-wise independence 失败很明显:表 13 中 Bit-wise Cls Head FID 8.37、IS 174.5,远差于 Binary Diff Head FID 1.79、IS 290.5。说明 binary token 的 bit 之间相关性很强,强行拆独立会造成采样精度崩塌。
  4. 高并行蒸馏仍有轻微能力损失:SFT 16 tokens/step 的 GenEval 为 0.86,Distilled 64 tokens/step 为 0.85。DPG-Bench 不降反升到 88.30,但 GenEval 有 0.01 下滑,说明更高并行度并非完全无损。
  5. 长序列/高分辨率训练细节披露不足:训练硬件规模、GPU hours、wall-clock time、per-GPU batch size 原文未明确说明;这会影响复现成本评估。
  6. 文生图仍非所有指标最强:OneIG-ZH Overall 为 0.512,低于 Qwen-Image 0.548 和 Z-Image 0.535;GenEval 0.86 低于 BAGEL 0.88、Qwen-Image 0.87。这说明 BitDance 的 AR 路线很强,但并未全面超过扩散/商业模型。
结论

论文自己的结论是:BitDance 证明了 scaling token entropy 可以让离散视觉 tokenizer 达到甚至超过连续 VAE 的重建质量;binary diffusion head 能解决超大二进制词表的采样瓶颈;next-patch diffusion 能把 binary diffusion head 扩展到多 token 联合预测,从而实现高质量并行 AR 生成。

核心贡献可以压缩成三句话

  1. $\{-1,1\}^d$ 二进制 token 扩大视觉离散表示空间,最高到 $2^{256}$
  2. 用 Rectified Flow / velocity matching 的 binary diffusion head 取代不可扩展的 softmax 分类头和过强的 bit-wise independence(文生图训练中仍额外保留 text-token cross-entropy loss)。
  3. 用 next-patch diffusion 对 patch 内 token 做联合采样,解决并行 AR 的训练-推理目标错配。

局限性:大词表需要更大 Transformer 才能稳定收敛;论文未公开训练硬件和总计算量;失败案例没有系统披露;文生图仍有部分 benchmark 低于最强商业/扩散模型;高并行蒸馏在 GenEval 上有轻微下降。

未来方向:论文提到希望进一步扩大数据和模型规模,并探索 BitDance 在更广泛 multimodal tasks 中的潜力。更具体的可研究方向包括:测试 binary token 在视频生成中的时序稳定性;研究真实 entropy/utilization;把 binary diffusion head 与低步数蒸馏结合;探索不同 patch size 下质量和延迟的 Pareto frontier。

收获
  1. 做视觉 AR 时,tokenizer 不只是预处理模块。BitDance 的结果说明 tokenizer 的几何约束会直接影响 AR 的误差累积。如果要做多模态生成模型,应该把 tokenizer、sampling head、decoding schedule 当成一个整体优化。
  2. 大词表不一定要 softmax。当类别空间是结构化的,例如 binary hypercube,可以换成连续生成头来建模联合分布。这个思想可以迁移到离散动作空间、结构化代码 token、离散 3D token 等场景。
  3. 并行 AR 的关键不是"一次预测多个 token",而是"联合采样多个 token"。如果训练目标和推理采样都没有建模 patch 内联合分布,并行可能带来局部结构断裂。Next-patch diffusion 给了一个可复用模板。
  4. 二进制约束是抗漂移机制。连续 latent 容易在高维空间里漂移,binary token 最后被 sign 投影回固定顶点集合。这个机制在长序列生成、视频 autoregressive rollout、robot trajectory tokenization 中都值得尝试。
  5. 效率优化可以后置蒸馏。BitDance 先训练 16-token parallel prediction,再用少量高质量数据蒸馏到 64-token parallel prediction,质量基本保持。这给高分辨率生成模型一个实用路径:先保质量,再扩并行度。
  6. 复现时优先抓三个超参数:binary token 维度/词表规模、patch size $p$、binary diffusion head 的 sampling steps。论文图 8 暗示 10 steps 已经可用,表 10 暗示 $p=8$ 的 64-token 并行需要蒸馏才能稳。