BitDance
BitDance 是一篇把自回归图像生成重新拆成三层问题来解决的论文:表示层用高熵 binary visual tokens,采样层用 binary diffusion head,解码层用 next-patch diffusion 做并行预测。它的核心判断是,视觉 AR 的瓶颈不只在 Transformer,也在 tokenizer 的状态空间、采样头的参数化方式、以及逐 token 解码的推理成本。
为什么值得读:它给出了一条和 VQ-VAE、连续 VAE 都不同的路线,用 $2^{256}$ 级别的二进制离散空间保留细节,同时用 diffusion head 避开 softmax 大词表爆炸。实验上,ImageNet 256×256 达到 FID 1.24;文本到图像在 1024×1024 下单 H100 延迟 12.4s,比 NextStep-1 的 402s 快 30 倍以上。
- arXiv:https://arxiv.org/abs/2602.14041
- PDF:https://arxiv.org/pdf/2602.14041
- 代码:https://github.com/shallowdream204/BitDance
- 项目页:https://bitdance.csuhan.com
- 作者/机构:ByteDance;MMLab, CUHK;Shanghai Jiao Tong University;Institute of Automation, CAS;NUS;SIAT, CAS
前置工作资源:
- MAGVIT-v2 / LFQ [80]:Language Model Beats Diffusion: Tokenizer is Key to Visual Generation, ICLR 2024
- Infinity [29]:Scaling Bitwise Autoregressive Modeling for High-Resolution Image Synthesis, CVPR 2025
- MAR [43]:Autoregressive Image Generation without Vector Quantization, NeurIPS 2024
- Rectified Flow [45]:Flow Straight and Fast, ICLR 2023
BitDance 的位置可以理解为三条路线的交汇。
1. 视觉 tokenizer 路线:VQ-VAE / VQGAN 把图像压成离散 codebook index,方便直接套语言模型式 next-token prediction。但 codebook 越大,越容易出现 codebook collapse 或利用率不稳,导致重建质量被词表规模卡住。MAGVIT-v2 引入 Lookup-Free Quantization (LFQ),用隐式二进制码本替代显式 codebook,把词表扩展到 $2^{18}$;后续 BSQ 和 WeTok 继续处理二进制量化的容量、稳定性、分组问题。BitDance 继承 LFQ/WeTok 的方向,把状态空间推到 $2^{256}$。
2. 视觉 AR 生成路线:LlamaGen、Emu3 等离散 AR 模型把图像 token 作为语言 token 来建模,优点是统一、可扩展,问题是 VQ token 重建质量不足。MAR、Fluid、NextStep-1 等连续 token AR 模型绕过 VQ codebook,用 VAE latent 或 diffusion head 采样连续 token,但连续 latent 无边界,长序列生成中容易漂移和误差累积。SphereAR 用 hyperspherical constraint 约束连续 latent。BitDance 的选择更激进:直接把 latent 限制到二进制超立方体顶点。
3. 并行 AR 生成路线:MaskGIT 用 mask-predict,VAR 用 next-scale prediction,PAR 用 grouping,RandAR/ARPG 用随机顺序并行解码。这些方法能加速,但多 token 同时生成时通常仍通过独立分类头采样,等价于默认 patch 内 token 条件独立。BitDance 指出这和并行 AR 的联合分布目标不一致,因此用 binary diffusion head 直接对一个 patch 内多个 binary token 建模联合分布。
| 前置工作 | BitDance 继承了什么 | BitDance 认为它哪里不够 | BitDance 的改动 |
|---|---|---|---|
| MAGVIT-v2 / LFQ [80] | 隐式二进制码本 $\mathcal{C}_{LFQ}=\{-1,1\}^d$,避免显式 codebook lookup | 标准 LFQ entropy loss 对完整码本分布计算,词表继续放大时内存成本高 | 采用 group-wise LFQ,支持 $2^{256}$ 级状态空间 |
| Infinity [29] | bitwise autoregressive / bit-wise binary modeling 思路 | bit-wise independence 只建模 $\prod_i p(b_i)$,丢失 bit 间相关性,表 13 中 FID 8.37 | 用 diffusion head 建模二进制 token 的联合分布,表 13 FID 1.79 |
| MAR [43] | 在 AR 框架中用 token-level diffusion head 采样 latent | MAR 面向连续 VAE latent;连续 token 缺少离散约束,可能误差累积 | 改为 binary token + hard sign 投影;再扩展到 patch-level joint diffusion |
| Rectified Flow [45] | 用 velocity matching 学习从噪声到数据的连续流 | 原始用于连续数据生成 | 把二进制 token 当作超立方体顶点,在连续空间中流动,最后投影回 $\{-1,1\}^d$ |
| 方法 | 表示 | 采样头 | 并行方式 | 代表数值 |
|---|---|---|---|---|
| LlamaGen-XXL [61] | VQ discrete token | softmax 分类 | raster AR | ImageNet FID 2.34 |
| Infinity [29] | binary token | bit-wise classification | bit-wise AR | DPG-Bench 83.46,GenEval 0.73 |
| MAR-H [43] | continuous VAE token | diffusion head | random masking | ImageNet FID 1.55 |
| RandAR-XXL [52] | VQ token | classification | random order parallel AR | 1.4B, 88 steps, 10.39 img/s, FID 2.15 |
| BitDance-B-16x | binary LFQ token | binary diffusion head | next-patch, 16 tokens/step | 260M, 16 steps, 90.26 img/s, FID 1.91 |
| BitDance-H-1x | binary LFQ token | binary diffusion head | raster AR | 1.0B, ImageNet FID 1.24 |
- Autoregressive visual generation
- 把图像编码成一串 token,并按 $p(x_n \mid x_{<n})$ 逐步生成。优点是和 LLM 范式统一,缺点是高分辨率下序列很长,逐 token 推理慢。
- Visual tokenizer
- 把图像压缩到低分辨率 latent/token 空间的编码器。tokenizer 的重建能力直接限制生成模型的上限。
- VQ / Vector Quantization
- 用有限 codebook 中的向量替换连续 latent。codebook 太小会丢细节,太大容易利用率低或 collapse。
- LFQ / Lookup-Free Quantization
- 不维护显式 codebook,而把每个 latent channel 二值化到 $\{-1,1\}$,隐式形成 $2^d$ 个可能码字。
- Binary token entropy
- 一个 $d$ 维二进制 token 理论上有 $2^d$ 种状态。BitDance 把这个上限扩到 $2^{256}$,试图用超大状态空间提高离散 token 的表达力。
- Binary diffusion head
- 在连续空间中对 binary token 建模,预测从高斯噪声到二进制顶点的流,最后用 sign 投影回 binary space。
- Rectified Flow
- 一类生成模型训练目标,学习从噪声到数据的速度场。BitDance 用它作为 diffusion head 的数学基础。
- Next-patch diffusion
- 把多个局部相邻 token 组成 patch,一次预测一个 patch;patch 之间保持 AR 因果,patch 内允许互相可见并联合采样。
- Block-wise causal mask
- 注意力 mask 的一种形式,保证模型只能看当前 patch 及之前 patch;同一 patch 内 token 可以相互 attention。
- FID
- Fréchet Inception Distance,越低越好,用于衡量生成图像分布和真实图像分布的距离。
- GenEval / DPG-Bench / OneIG
- 文本到图像评测集,分别强调对象组合、语义对齐、文本渲染、推理、风格、多语言等能力。
- 如果 token 状态空间扩到 $2^{256}$,真正的收益来自更高重建 fidelity,还是来自二进制约束带来的生成稳定性?
- Binary diffusion head 到底是在解决 softmax 参数爆炸,还是也在隐式学习 bit 间结构?如果只换一个低秩分类头会怎样?
- Next-patch diffusion 的并行性和质量之间有没有一个临界点?从 16 tokens/step 到 64 tokens/step 质量为什么基本不掉?
- 论文说二进制 latent 能缓解误差累积,这个机制是几何约束、训练目标,还是 hard sign 投影的共同结果?
- $2^{256}$ 这种巨大状态空间是否真的被充分利用,还是只是理论容量?论文是否测了实际 entropy 或 token occupancy?
BitDance 面对的是视觉自回归生成的三个具体问题。
第一,表示层的问题。离散 AR 模型依赖 VQ tokenizer,但 VQ codebook 很难无痛扩展。词表小则重建差,词表大则 codebook collapse 或利用率不稳。连续 VAE 重建好,但 latent 空间无边界,长序列 AR 生成时每一步的小误差会进入后续条件,形成 representation drift。
第二,采样层的问题。假设一个 binary token 有 $d$ 个 bit,如果用标准分类头建模完整联合分布 $p(b_1,b_2,\ldots,b_d)$,输出类别数是 $2^d$。原文给出具体例子:当 hidden dimension $h=1024$ 且 $d=32$ 时,分类头参数约为 4.4 trillion。Infinity 这类 bit-wise 方法把联合分布拆成 $\prod_{i=1}^{d}p(b_i)$,参数降下来了,但 bit 间相关性被切断,表 13 中 FID 8.37,明显差于 BitDance 的 1.79。
第三,解码效率的问题。图像分辨率升高后,token 序列变长,逐 token AR 成本线性增长。并行 AR 方法虽然能一次出多个 token,但如果最后每个 token 独立采样,局部结构会不一致。BitDance 的洞察是:局部 patch 内 token 彼此强相关,应该联合预测,而不是独立抽样。
核心 insight 类比:传统 VQ 像在一本有限字典里选词,字典太小表达不细,字典太大查词和训练都崩;连续 VAE 像自由手写,表达强但容易越写越歪;BitDance 像用 256 个开关组成一个超大但规整的"二进制拼字板",每个位置只能是开或关,表达空间巨大,同时输出被限制在规则网格上。Diffusion head 则像先在拼字板附近连续移动,最后啪地一下吸附到最近的开关组合。
- Tokenizer 重建:16× downsample、$2^{32}$ codebook 的 BitDance-Tok PSNR 24.90,超过 SD-VAE 23.54;32× downsample、$2^{256}$ codebook 的 BitDance-Tok PSNR 25.29,超过 DC-AE 24.81。
- 采样头消融:Token Cls Head OOM;Bit-wise Cls Head FID 8.37;Binary Diff Head FID 1.79。
- 并行生成:BitDance-B-16x 用 260M 参数、16 steps、90.26 img/s 达到 FID 1.91;RandAR-XXL 用 1.4B 参数、88 steps、10.39 img/s,FID 2.15。
- 高分辨率成本:1024×1024 文生图单 H100 bfloat16 延迟,BitDance 12.4s,NextStep-1 402s,GLM-Image 53.2s。
输入到输出链路如下:
- 图像输入经 visual tokenizer 编码成 latent token。
- LFQ 对每个 latent channel 做二值化,形成 binary visual tokens。隐式码本为 $\mathcal{C}_{LFQ}=\{-1,1\}^d$。
- 对图像 token 按 patch-wise raster scan order 展平。若 patch size 为 $p$,每个 AR step 生成 $p^2$ 个 token。
- AR Transformer 接收文本 token、分辨率 token、已生成 visual token。文本到图像场景中,基础模型为 Qwen3-14B。
- 对下一个 token/patch 的 hidden states,binary diffusion head 通过 Rectified Flow 学习从高斯噪声到 binary token 的速度场。
- 推理时用 Euler solver 迭代,再用 $\operatorname{sign}$ 投影回 $\{-1,1\}$,最后由 decoder 还原图像。
原文公式(1):
解释:给定编码器输出 $x\in\mathbb{R}^d$,LFQ 直接逐通道取符号,把连续 latent 投影到二进制超立方体顶点。
原文公式(2):
解释:entropy loss 用于防止 codebook collapse 并最大化信息容量。标准 LFQ 需要计算 $q(x)$ 与整个码本空间的相似度;当 vocabulary size 随 $2^d$ 指数增长时,内存成本变得不可接受。BitDance 采用 group-wise LFQ,把 $d$ 个 channel 分成 $g$ 组计算 entropy,从而支持 $2^{256}$ codebook size。
采样瓶颈来自完整分类头的指数级输出。对 $d$-bit token,标准分类头参数量为 $h\times 2^d$;$h=1024,d=32$ 时约 4.4T 参数。BitDance 改为把 binary token 当成连续空间中的点,学习条件分布 $p(x\mid z)$。
原文公式(3):
解释:这是 binary diffusion head 的 velocity-matching loss。这里 $x_t=tx+(1-t)\epsilon$,$\epsilon\sim\mathcal{N}(0,I)$,$v_t=x-\epsilon$。模型在 AR hidden state $z$ 条件下预测从噪声到 binary token 的速度。
原文中还给出速度参数化:
解释:$f_{\theta}$ 是 $x$-prediction network,直接预测 clean binary latent,再换算成速度场。
原文公式(4):
解释:推理时从 $x_0\sim\mathcal{N}(0,I)$ 出发,用 $N$ 个均匀 Euler steps 积分,$\Delta t=1/N$。最后执行 $x_1=\operatorname{sign}(x_1)$,把连续预测投影回 binary hypercube。
标准 AR 分解为原文公式(5):
解释:逐 token 预测,质量稳定但推理慢。
BitDance 把序列分成 $M$ 个 patch,$x=[X_1,X_2,\ldots,X_M]$,每个 $X_m=\{x_m^1,x_m^2,\ldots,x_m^{p^2}\}$。并行 AR 分解为原文公式(6):
解释:生成单位从单个 token 变成一个 patch;patch 间保持自回归,patch 内联合建模。
原文公式(7):
解释:这是公式(3)的多 token 版本。$X\in\mathbb{R}^{p^2\times d}$ 是一个 patch 内的 ground-truth tokens,$Z\in\mathbb{R}^{p^2\times h}$ 是对应 hidden states。binary diffusion head 被扩展为联合预测一个 patch 的多个 tokens。
| 采样方式 | 分布假设 | 参数/成本 | 论文结果 |
|---|---|---|---|
| Token classification head | 建模 $2^d$ 类 categorical | $h\times 2^d$;$h=1024,d=32$ 时约 4.4T 参数 | 表 13:OOM |
| Bit-wise classification head | $\prod_{i=1}^{d}p(b_i)$,bit 独立 | 参数可控 | 表 13:FID 8.37, IS 174.5 |
| Binary diffusion head | 在连续空间中联合建模所有 bit | 参数可控,需 diffusion steps | 表 13:FID 1.79, IS 290.5 |
| Multi-token binary diffusion | 联合建模 patch 内 $p^2$ tokens | patch 内 diffusion head | 表 14:Next-Patch Diffusion FID 1.98 |
- Group-wise LFQ:不在完整 $2^d$ 空间上计算 entropy,而按组计算,缓解内存问题。
- Hard binarization:采样末尾执行 $x_1=\operatorname{sign}(x_1)$,把连续解吸附回二进制顶点。
- Lightweight DiT head:binary diffusion head 的预测网络 $f_{\theta}$ 采用轻量 DiT 架构,用于建模 $p^2$ tokens。
- Block-wise causal attention mask:patch 内 token 相互可见,patch 间保持因果。
- Learnable prefix tokens:为了同时预测初始 patch 的所有 tokens,引入 $p^2-1$ 个 learnable prefix tokens。
- Resolution tokens:文本到图像中在 visual tokens 前加入
[res_i]和[res_j],支持可变分辨率和宽高比。
- 主数据集:DataComp-1B [22]
- 额外数据:高质量 face 和 text datasets,用于改善特定域重建
- 分辨率:256×256
- 训练步数:400K steps
- Batch size:1024
- 架构:pure CNN tokenizer
- 配置:16× downsample + $2^{32}$ codebook;32× downsample + $2^{128}$ codebook;32× downsample + $2^{256}$ codebook
- 计算成本:训练硬件、GPU 数量、总训练时长原文未明确说明
- 数据集:ImageNet-1K,256×256
- 模型尺寸:BitDance-B/L/H 分别为 24/32/40 Transformer blocks,width 分别为 768/1024/1280
- Binary diffusion head:blocks 分别为 6/8/12,width 保持一致
- Tokenizer:16× downsampling binary tokenizer trained on ImageNet
- 训练轮数:800 epochs;消融实验训练 400 epochs
- Optimizer:AdamW,$\beta=(0.9,0.95)$
- Weight decay:0.05
- Batch size:1024
- LR schedule:cosine learning rate schedule
- Warmup steps:20K
- EMA decay:0.9999
- 计算成本:吞吐评测在单 A100、batch size 64、bfloat16 precision 下进行;训练硬件和总训练时长原文未明确说明
模型设计:采用 pretrained Qwen3-14B 作为 base AR model;visual tokenizer 选择 16× downsampling;patch size $p=4$,每步并行预测 $p^2=16$ tokens;加入 2D sinusoidal positional embeddings,保留 LLM 的 1D RoPE。
输入格式:
[bos], {text tokens}, [boi], [res_i], [res_j], {visual tokens}, [eoi], [eos]
训练流程:PT → CT → SFT → optional Distill。PT 和 CT 数据来自 LAION 等开源数据;SFT 数据来自开源数据和少量由 Seedream、Z-Image-Turbo 等模型生成的高质量图像;保留少量 image-to-text 数据维持 LLM 文本理解能力。
| Stage | LR | Warmup | Steps | Global batch | Samples | Resolution ratio 256:512:1024 | Text drop |
|---|---|---|---|---|---|---|---|
| PT | $1.0\times10^{-4}$ | 2000 | 100K | 2560 | 256M | 2:7:1 | 0.1 |
| CT | $1.0\times10^{-4}$ | 1000 | 40K | 2480 | 99.2M | 0:1:1 | 0.1 |
| SFT | $2.0\times10^{-5}$ | 500 | 40K | 2320 | 92.8M | 0:1:1 | 0.1 |
| Distill | $2.0\times10^{-5}$ | 500 | 20K | 1536 | 30.7M | 0:0:1 | 0.1 |
- Optimizer:AdamW,$\beta_1=0.9,\beta_2=0.95,\epsilon=1.0\times10^{-15}$
- LR scheduler:constant
- Weight decay:0.0
- Gradient norm clip:1.0
- Loss weight:text : vision = 0.01 : 1,即 vision loss 主导
- Visual tokenizer:frozen
- Trainable parameters:除 visual tokenizer 外全部 trainable
- Distill:从 16-token parallel prediction, $p=4$,蒸馏到 64-token parallel prediction, $p=8$
- 计算成本:文生图使用 14B 参数模型;1024×1024 latency 在单 H100 GPU、bfloat16 precision 下测量。训练硬件规模、GPU hours、wall-clock time 原文未明确说明
- Tokenizer reconstruction:ImageNet 256×256 validation set;指标 PSNR、SSIM、compression ratio
- ImageNet class-conditional generation:ImageNet-1K 256×256;指标 FID、IS、Precision、Recall;使用 OpenAI TensorFlow-based evaluation toolkit
- Parallel generation efficiency:ImageNet 256×256;吞吐在单 A100、batch size 64、bfloat16 precision 下测量
- Text-to-image:GenEval、DPG-Bench、OneIG-EN、OneIG-ZH、TIIF Bench testmini;同时比较 1024×1024 生成延迟
- Ablation:ImageNet 256×256,BitDance-B backbone,训练 400 epochs,按 best classifier-free guidance scale 评估
| Model | Type | Order | #Params | Steps | Throughput | FID ↓ | IS ↑ | Pre. ↑ | Rec. ↑ |
|---|---|---|---|---|---|---|---|---|---|
| DiT-XL/2 [53] | Diff. | - | 675M | 250 | 1.06 img/s | 2.27 | 278.2 | 0.83 | 0.57 |
| DiCo-XL [3] | Diff. | - | 701M | 250 | 2.62 img/s | 2.05 | 282.2 | 0.83 | 0.59 |
| MaskGIT [6] | Mask. | random | 227M | 8 | 50.73 img/s | 6.18 | 182.1 | 0.80 | 0.51 |
| MAR-L [43] | Mask. | random | 479M | 256 | 1.39 img/s | 1.78 | 296.0 | 0.81 | 0.60 |
| VAR-d24 [66] | VAR | - | 1.0B | 10 | 47.22 img/s | 2.09 | 312.9 | 0.82 | 0.59 |
| PAR-XXL [70] | AR | hybrid | 1.4B | 147 | 5.17 img/s | 2.35 | 263.2 | 0.80 | 0.62 |
| RandAR-XXL [52] | AR | random | 1.4B | 88 | 10.39 img/s | 2.15 | 322.0 | 0.79 | 0.62 |
| BitDance-B-4x | AR | raster | 260M | 64 | 24.18 img/s | 1.69 | 291.2 | 0.79 | 0.63 |
| BitDance-B-16x | AR | raster | 260M | 16 | 90.26 img/s | 1.91 | 283.8 | 0.78 | 0.62 |
| Method | Tokenizer Type | Downsample | Codebook Size | Compression Ratio | PSNR ↑ | SSIM ↑ |
|---|---|---|---|---|---|---|
| SD-VAE [57] | Continuous | 8 | - | 24 | 23.54 | 0.68 |
| Open-MAGVIT2 [47] | Discrete | 16 | $2^{18}$ | 341 | 22.70 | 0.64 |
| Infinity [29] | Discrete | 16 | $2^{32}$ | 192 | 22.70 | - |
| BitDance-Tok | Discrete | 16 | $2^{32}$ | 192 | 24.90 | 0.72 |
| DC-AE [10] | Continuous | 32 | - | 48 | 24.81 | 0.69 |
| BitDance-Tok | Discrete | 32 | $2^{128}$ | 192 | 23.26 | 0.67 |
| BitDance-Tok | Discrete | 32 | $2^{256}$ | 96 | 25.29 | 0.74 |
| Benchmark | BitDance | 关键对比 |
|---|---|---|
| DPG-Bench Overall | 88.28 | Qwen-Image 88.32,Z-Image 88.14,NextStep-1 85.28,GLM-Image 84.78 |
| GenEval Overall | 0.86 | BAGEL 0.88,Qwen-Image 0.87,Tar 0.84,Infinity 0.73,NextStep-1 0.73 |
| OneIG-EN Overall | 0.532 | GPT Image 1 0.533,Seedream 3.0 0.530,GLM-Image 0.528,NextStep-1 0.418 |
| OneIG-ZH Overall | 0.512 | Qwen-Image 0.548,Z-Image 0.535,GLM-Image 0.511,Janus-Pro 0.240 |
Latency measured using single H100 GPU with bfloat16 precision.
| Model | Type | #Params | Latency-1024 |
|---|---|---|---|
| BAGEL [16] | Diffusion | 7B | 23.1s |
| Qwen-Image [64] | Diffusion | 20B | 20.3s |
| Z-Image [65] | Diffusion | 6B | 21.1s |
| NextStep-1 [63] | Autoregressive | 14B | 402s |
| GLM-Image [83] | Autoregressive | 16B | 53.2s |
| BitDance | Autoregressive | 14B | 12.4s |
- 重建质量:BitDance-Tok 证明二进制离散 token 可以追上甚至超过连续 VAE。16× 下 $2^{32}$ codebook PSNR 24.90,优于 SD-VAE 23.54;32× 下 $2^{256}$ codebook PSNR 25.29,优于 DC-AE 24.81。
- ImageNet class-conditional generation:BitDance-H-1x 以 1.0B 参数达到 FID 1.24、IS 304.4、Precision 0.81、Recall 0.64。在 AR 模型中是最强结果之一,同时仍使用 raster-order 标准 AR。
- 并行生成:BitDance-B-4x 用 260M 参数、64 steps、24.18 img/s 达到 FID 1.69;BitDance-B-16x 进一步到 16 steps、90.26 img/s,FID 1.91。相比 RandAR-XXL 的 1.4B、88 steps、10.39 img/s、FID 2.15,BitDance 以 5.4× 更少参数获得 8.7× 吞吐加速,并且 FID 更低。
- 文生图:BitDance 在 DPG-Bench 88.28、GenEval 0.86、OneIG-EN 0.532、OneIG-ZH 0.512。在多个 benchmark 上于 autoregressive models 中达到 SOTA;其中 TIIF testmini 为 AR 模型中第二;相对 proprietary/diffusion models 则为 comparable,但并非全面最优。文生图训练阶段使用少于 450M image-text pairs,tokenizer 预训练另用 DataComp-1B,论文据此强调数据效率。
消融使用 BitDance-B backbone,在 ImageNet 256×256 上训练 400 epochs。
| 消融项 | Variant | FID ↓ | IS ↑ | 发现 |
|---|---|---|---|---|
| Tokenizer | MAR's VAE [43] | 3.16 | 289.9 | 连续 VAE token 在 AR 中表现显著差于 binary token,说明无约束连续 latent 易误差累积 |
| Tokenizer | VA-VAE [79] | 4.84 | 273.7 | 更差,进一步支持 tokenizer/latent 约束的重要性 |
| Tokenizer | BitDance-Tok | 1.79 | 290.5 | binary tokenizer 最优 |
| Sampling head | Token Cls Head | OOM | OOM | 完整分类头参数量爆炸 |
| Sampling head | Bit-wise Cls Head | 8.37 | 174.5 | bit 独立假设破坏采样质量 |
| Sampling head | Binary Diff Head | 1.79 | 290.5 | 联合建模 bit 分布是关键 |
| Next-patch design | Next-Patch Diffusion | 1.98 | 276.7 | 完整设计最优 |
| Next-patch design | Block-wise → Full | 2.07 | 271.8 | attention mask 设计影响局部一致性 |
| Next-patch design | Patch → Token Raster | 2.15 | 270.0 | patch-wise raster scan 优于 token raster 替代 |
重要细节:论文还报告 diffusion sampling steps 的影响,图 8 显示 binary diffusion head 用 as few as 10 steps 就能得到较好结果。这说明二进制目标空间的有限顶点结构降低了采样难度。
SFT 到 distilled 的并行数提升:
| Model | #Tokens per step | DPG-Bench | GenEval |
|---|---|---|---|
| SFT | 16 | 88.28 | 0.86 |
| Distilled | 64 | 88.30 | 0.85 |
这说明从 16-token parallel prediction 蒸馏到 64-token parallel prediction 后,DPG-Bench 基本不掉,GenEval 只从 0.86 到 0.85。
- 小 Transformer 难以利用大词表:图 6 明确指出,对于 large vocabularies,small Transformers struggle to converge;scaling vocabulary size requires concurrent expansion of Transformer size。因此 $2^{256}$ 不是免费午餐,模型容量不足时反而难训练。
- Token classification head 直接不可用:表 13 中 Token Cls Head 为 OOM。这个失败不是质量下降,而是参数/显存层面无法运行。原文例子 $h=1024,d=32$ 已达到约 4.4T 参数。
- Bit-wise independence 失败很明显:表 13 中 Bit-wise Cls Head FID 8.37、IS 174.5,远差于 Binary Diff Head FID 1.79、IS 290.5。说明 binary token 的 bit 之间相关性很强,强行拆独立会造成采样精度崩塌。
- 高并行蒸馏仍有轻微能力损失:SFT 16 tokens/step 的 GenEval 为 0.86,Distilled 64 tokens/step 为 0.85。DPG-Bench 不降反升到 88.30,但 GenEval 有 0.01 下滑,说明更高并行度并非完全无损。
- 长序列/高分辨率训练细节披露不足:训练硬件规模、GPU hours、wall-clock time、per-GPU batch size 原文未明确说明;这会影响复现成本评估。
- 文生图仍非所有指标最强:OneIG-ZH Overall 为 0.512,低于 Qwen-Image 0.548 和 Z-Image 0.535;GenEval 0.86 低于 BAGEL 0.88、Qwen-Image 0.87。这说明 BitDance 的 AR 路线很强,但并未全面超过扩散/商业模型。
论文自己的结论是:BitDance 证明了 scaling token entropy 可以让离散视觉 tokenizer 达到甚至超过连续 VAE 的重建质量;binary diffusion head 能解决超大二进制词表的采样瓶颈;next-patch diffusion 能把 binary diffusion head 扩展到多 token 联合预测,从而实现高质量并行 AR 生成。
核心贡献可以压缩成三句话:
- 用 $\{-1,1\}^d$ 二进制 token 扩大视觉离散表示空间,最高到 $2^{256}$。
- 用 Rectified Flow / velocity matching 的 binary diffusion head 取代不可扩展的 softmax 分类头和过强的 bit-wise independence(文生图训练中仍额外保留 text-token cross-entropy loss)。
- 用 next-patch diffusion 对 patch 内 token 做联合采样,解决并行 AR 的训练-推理目标错配。
局限性:大词表需要更大 Transformer 才能稳定收敛;论文未公开训练硬件和总计算量;失败案例没有系统披露;文生图仍有部分 benchmark 低于最强商业/扩散模型;高并行蒸馏在 GenEval 上有轻微下降。
未来方向:论文提到希望进一步扩大数据和模型规模,并探索 BitDance 在更广泛 multimodal tasks 中的潜力。更具体的可研究方向包括:测试 binary token 在视频生成中的时序稳定性;研究真实 entropy/utilization;把 binary diffusion head 与低步数蒸馏结合;探索不同 patch size 下质量和延迟的 Pareto frontier。
- 做视觉 AR 时,tokenizer 不只是预处理模块。BitDance 的结果说明 tokenizer 的几何约束会直接影响 AR 的误差累积。如果要做多模态生成模型,应该把 tokenizer、sampling head、decoding schedule 当成一个整体优化。
- 大词表不一定要 softmax。当类别空间是结构化的,例如 binary hypercube,可以换成连续生成头来建模联合分布。这个思想可以迁移到离散动作空间、结构化代码 token、离散 3D token 等场景。
- 并行 AR 的关键不是"一次预测多个 token",而是"联合采样多个 token"。如果训练目标和推理采样都没有建模 patch 内联合分布,并行可能带来局部结构断裂。Next-patch diffusion 给了一个可复用模板。
- 二进制约束是抗漂移机制。连续 latent 容易在高维空间里漂移,binary token 最后被 sign 投影回固定顶点集合。这个机制在长序列生成、视频 autoregressive rollout、robot trajectory tokenization 中都值得尝试。
- 效率优化可以后置蒸馏。BitDance 先训练 16-token parallel prediction,再用少量高质量数据蒸馏到 64-token parallel prediction,质量基本保持。这给高分辨率生成模型一个实用路径:先保质量,再扩并行度。
- 复现时优先抓三个超参数:binary token 维度/词表规模、patch size $p$、binary diffusion head 的 sampling steps。论文图 8 暗示 10 steps 已经可用,表 10 暗示 $p=8$ 的 64-token 并行需要蒸馏才能稳。