TiTok 与 1D Visual Tokenizer：研究现状与演进方向

2026/05/17 10:00:00

TiTok：1D Visual Tokenizer 的奠基工作

TiTok（NeurIPS 2024）的核心贡献是一个简洁的问题定义：传统 2D tokenizer 的 token 数量与图像分辨率绑定（256×256 → 16×16 grid = 256 tokens），且每个 token 只包含局部 patch 信息。

TiTok 的解法：

一个关键洞察：TiTok 的码本像"字母表"，单个 token 没有明确语义，必须拼成整体才能表意；而 VQGAN 的码本像"词典"，单个 token 有语义但组合受约束。这使得 TiTok 的有效码空间利用率更高，信息冗余更少。

局限：语义保持好，但细节重建与原图有较大误差；32 tokens 的极端压缩下容量受限。

基于 Semantic Scholar 上 TiTok 的 263 篇引用文献，后续工作主要沿六个方向展开。

one-hot 码本不再是唯一选择。

VTBench 的核心发现：连续 VAE 在视觉表示上显著优于离散 VT，尤其在空间结构、细粒度纹理、文本保留方面。

本质：离散负责序列建模（AR/LLM 友好），连续负责高保真重建。

"冻结强语义编码器 + 轻量可学习 bottleneck + 条件化解码器"成为共识路线。

GigaTok（ICCV 2025，3B 参数）：语义正则化对齐预训练视觉编码器，decoder 优先扩展。系统回答了"tokenizer 变大后重建与生成为何此消彼长"——根源在于潜在空间复杂度失控
MAETok：核心发现是"变分约束非必需，有判别性的潜在空间结构才是关键"，ImageNet 生成仅用 128 tokens 达到 gFID 1.69，训练快 76 倍
DINO-Tok / MUSE-VL / SemHiTok：冻结 VFM 特征作为语义锚点

Kaiming He 组（ICML 2025）发现：1D tokenizer 的高压缩 latent space 本身就蕴含了强大的生成先验。仅通过 token 复制/替换 + 梯度优化即可实现图像编辑，无需训练任何生成模型。

这表明：tokenizer 的潜在空间质量直接决定了生成任务的上限。

将六个方向收束，形成三条清晰的演进主线：

主线	代表工作	核心主张
表示形式的重构	Instella-T2I, WeTok, NativeTok	1D token 的数学结构本身可以重新设计，不局限于传统 VQ
连续-离散的融合	HART, SoftVQ-VAE, VQRAE	离散负责序列建模，连续负责高保真重建，各司其职
语义外置与规模化	GigaTok, MAETok, DINO-Tok	借助预训练 VFM 的语义先验，把 tokenizer scale 到 billion 级别

核心想法：将编码端与扩散模型加噪过程耦合。编码端逐步传递信息，解码端逐步恢复。

我们的工作恰好踩在了三条主线的交汇点上：