TiTok 后续改进方向深度调研
本调研基于 TiTok("An Image is Worth 32 Tokens")在 Semantic Scholar 上的 263 篇引用文献,对 2024—2026 年间 1D tokenizer 的后续改进工作进行系统梳理。核心问题:TiTok 之后,1D-tokenizer 的改进主要围绕什么方向展开?
TiTok 将 256×256 图像压缩为 32 个 token 已属激进,但后续工作在"token 的数学结构"本身上进行了更底层的重新设计。
| 工作 | 核心创新 | 压缩效果 |
|---|---|---|
| Instella-T2I | 1D binary image latents,用二进制向量序列替代 one-hot codebook | 1024×1024 仅需 128 tokens |
| WeTok | Group-wise Lookup-free Quantization + Generative Decoder | 768×压缩下 rFID 3.49 |
| Tokenize Image as a Set | 无序 token 集合表示,动态分配编码容量 | 突破固定位置假设 |
💡 关键趋势
one-hot 码本不再是唯一选择。 从 binary 向量到 lookup-free 量化再到无序集合,token 的数学表示正在被重新发明。
VTBench 的重要发现:连续 VAE 在视觉表示上显著优于离散 VT,尤其在空间结构、细粒度纹理、文本保留方面。这推动了"混合表示"成为明确趋势。
| 工作 | 混合机制 |
|---|---|
| HART | 潜在分解为离散 token(大局)+ 连续残差 token(细节),连续部分用 37M 残差扩散模块建模。重建 FID 0.30 |
| VQRAE | 同一框架输出连续语义表示 + 离散生成 tokens,分别服务理解与生成 |
| Layton | 桥接离散视觉 token 与连续扩散模型:利用预训练 LDM 作为 tokenizer 的重建解码器 |
| SoftVQ-VAE | 1D 连续 tokenizer,利用 soft categorical probabilities 替代硬量化 |
🎯 本质洞察
离散负责序列建模(AR/LLM 友好),连续负责高保真重建——各司其职。
"冻结强语义编码器 + 轻量可学习 bottleneck + 条件化解码器"的路线被进一步验证和扩展。
| 工作 | 关键实践 |
|---|---|
| GigaTok (ICCV 2025) | 视觉 tokenizer scale 到 3B 参数;提出 semantic regularization;优先扩展 decoder;entropy loss 稳定训练 |
| MAETok | Masked Autoencoder 做 tokenizer。核心发现:变分约束非必需。仅用 128 tokens 达 gFID 1.69,训练快 76 倍 |
| DINO-Tok / SemHiTok | 冻结 DINO/CLIP/SigLIP 特征作为语义锚点 |
GigaTok 特别值得关注:它系统回答了"tokenizer 变大后,重建与生成质量为何往往此消彼长"——根源在于潜在空间复杂度失控,而语义正则化是解药。
一些工作不再只关注"编什么",而是重新设计"怎么编"。
| 工作 | 结构创新 |
|---|---|
| NativeTok | 在 tokenization 阶段强制执行因果依赖——用 MIT + MoCET,每个 expert 基于先前 token 生成当前 token |
| ImageFolder | 可折叠 token(folded tokens):空间对齐,AR 建模时可平衡效率与质量。双分支乘积量化 |
| TA-TiTok / MaskGen | 文本感知 1D tokenizer,解码阶段集成文本信息,一阶段训练替代两阶段蒸馏 |
| SFTok | Multi-step iterative refinement 弥合离散 tokenizer 与连续表示的差距 |
共同目标:解决 token 之间缺乏结构约束的问题,避免生成模型从零学习无序分布。
TiTok 引用链中出现了一个非常有趣的子方向:高压缩 1D tokenizer 的 latent space 本身就蕴含了强大的生成先验。
"Highly Compressed Tokenizer Can Generate Without Training"
该工作发现 1D tokenizer 的高压缩率使得仅通过启发式 token 操作(复制、替换 token)就能实现细粒度图像编辑。进一步提出梯度优化的 test-time token optimization,用 plug-and-play 损失函数实现 inpainting 和 text-guided editing,无需训练任何生成模型。
与 GigaTok 和 ImageFolder 的发现相互印证:tokenizer 的潜在空间质量直接决定了生成任务的上限。
VTBench——首个系统评估视觉 tokenizer 的基准,覆盖重建、细节保留、文本保留三个维度。核心发现:离散 VT 在空间结构保持、细粒度纹理、文本完整性上全面落后于连续 VAE,为混合表示路线提供了强有力的实证支持。
ImageFolder——tokenizer 的 token 长度增加不一定带来更好的生成质量,重建与生成之间存在明确 trade-off。
| 主线 | 代表工作 | 核心主张 |
|---|---|---|
| 表示形式的重构 | Instella-T2I, WeTok, TokenSet, NativeTok | 1D token 的数学结构本身可以重新设计,不局限于 VQ |
| 连续-离散的融合 | HART, Layton, SoftVQ-VAE, VQRAE | 离散负责序列建模,连续负责高保真重建 |
| 语义外置与规模化 | GigaTok, MAETok, DINO-Tok, TA-TiTok | 借助预训练 VFM 语义先验,scale 到 billion 级别 |
📖 关键论文速查
GigaTok (ICCV 2025) · MAETok (arXiv 2025) · HART (ICLR 2025) · Layton (arXiv 2025) · WeTok (arXiv 2025) · NativeTok (arXiv 2026) · ImageFolder (ICLR 2026) · TA-TiTok (ICCV 2025) · Highly Compressed Tokenizer (ICML 2025) · VTBench (arXiv 2025) · Instella-T2I (arXiv 2025)
详细链接见 org-roam 笔记 articles/TiTok 引用链与 1D Tokenizer 后续改进方向深度调研