ESC
输入关键词搜索文章
目录

TiTok 后续改进方向深度调研

1D Tokenizer · 六大演进主线 · 2024—2026
基于 TiTok 263 篇引用文献的系统梳理——不再问"能不能压缩",而是问"压缩后学到的表示够不够好"
263TiTok 引用文献
6改进方向
3BGigaTok 参数
768×WeTok 压缩比
背景与动机

本调研基于 TiTok("An Image is Worth 32 Tokens")在 Semantic Scholar 上的 263 篇引用文献,对 2024—2026 年间 1D tokenizer 的后续改进工作进行系统梳理。核心问题:TiTok 之后,1D-tokenizer 的改进主要围绕什么方向展开?

方向一:压缩极限与表示形式的底层创新

TiTok 将 256×256 图像压缩为 32 个 token 已属激进,但后续工作在"token 的数学结构"本身上进行了更底层的重新设计。

工作核心创新压缩效果
Instella-T2I1D binary image latents,用二进制向量序列替代 one-hot codebook1024×1024 仅需 128 tokens
WeTokGroup-wise Lookup-free Quantization + Generative Decoder768×压缩下 rFID 3.49
Tokenize Image as a Set无序 token 集合表示,动态分配编码容量突破固定位置假设

💡 关键趋势

one-hot 码本不再是唯一选择。 从 binary 向量到 lookup-free 量化再到无序集合,token 的数学表示正在被重新发明。

方向二:连续-离散混合表示成为共识

VTBench 的重要发现:连续 VAE 在视觉表示上显著优于离散 VT,尤其在空间结构、细粒度纹理、文本保留方面。这推动了"混合表示"成为明确趋势。

工作混合机制
HART潜在分解为离散 token(大局)+ 连续残差 token(细节),连续部分用 37M 残差扩散模块建模。重建 FID 0.30
VQRAE同一框架输出连续语义表示 + 离散生成 tokens,分别服务理解与生成
Layton桥接离散视觉 token 与连续扩散模型:利用预训练 LDM 作为 tokenizer 的重建解码器
SoftVQ-VAE1D 连续 tokenizer,利用 soft categorical probabilities 替代硬量化

🎯 本质洞察

离散负责序列建模(AR/LLM 友好),连续负责高保真重建——各司其职。

方向三:语义外置化与规模化训练

"冻结强语义编码器 + 轻量可学习 bottleneck + 条件化解码器"的路线被进一步验证和扩展。

工作关键实践
GigaTok (ICCV 2025)视觉 tokenizer scale 到 3B 参数;提出 semantic regularization;优先扩展 decoder;entropy loss 稳定训练
MAETokMasked Autoencoder 做 tokenizer。核心发现:变分约束非必需。仅用 128 tokens 达 gFID 1.69,训练快 76 倍
DINO-Tok / SemHiTok冻结 DINO/CLIP/SigLIP 特征作为语义锚点

GigaTok 特别值得关注:它系统回答了"tokenizer 变大后,重建与生成质量为何往往此消彼长"——根源在于潜在空间复杂度失控,而语义正则化是解药。

方向四:Tokenization 过程本身的结构创新

一些工作不再只关注"编什么",而是重新设计"怎么编"。

工作结构创新
NativeTok在 tokenization 阶段强制执行因果依赖——用 MIT + MoCET,每个 expert 基于先前 token 生成当前 token
ImageFolder可折叠 token(folded tokens):空间对齐,AR 建模时可平衡效率与质量。双分支乘积量化
TA-TiTok / MaskGen文本感知 1D tokenizer,解码阶段集成文本信息,一阶段训练替代两阶段蒸馏
SFTokMulti-step iterative refinement 弥合离散 tokenizer 与连续表示的差距

共同目标:解决 token 之间缺乏结构约束的问题,避免生成模型从零学习无序分布。

方向五:重建-生成权衡的再认识

TiTok 引用链中出现了一个非常有趣的子方向:高压缩 1D tokenizer 的 latent space 本身就蕴含了强大的生成先验

"Highly Compressed Tokenizer Can Generate Without Training"

—— Kaiming He 组, ICML 2025

该工作发现 1D tokenizer 的高压缩率使得仅通过启发式 token 操作(复制、替换 token)就能实现细粒度图像编辑。进一步提出梯度优化的 test-time token optimization,用 plug-and-play 损失函数实现 inpainting 和 text-guided editing,无需训练任何生成模型

与 GigaTok 和 ImageFolder 的发现相互印证:tokenizer 的潜在空间质量直接决定了生成任务的上限

方向六:评估体系与基础发现

VTBench——首个系统评估视觉 tokenizer 的基准,覆盖重建、细节保留、文本保留三个维度。核心发现:离散 VT 在空间结构保持、细粒度纹理、文本完整性上全面落后于连续 VAE,为混合表示路线提供了强有力的实证支持。

ImageFolder——tokenizer 的 token 长度增加不一定带来更好的生成质量,重建与生成之间存在明确 trade-off。

三条演进主线
主线代表工作核心主张
表示形式的重构Instella-T2I, WeTok, TokenSet, NativeTok1D token 的数学结构本身可以重新设计,不局限于 VQ
连续-离散的融合HART, Layton, SoftVQ-VAE, VQRAE离散负责序列建模,连续负责高保真重建
语义外置与规模化GigaTok, MAETok, DINO-Tok, TA-TiTok借助预训练 VFM 语义先验,scale 到 billion 级别

📖 关键论文速查

GigaTok (ICCV 2025) · MAETok (arXiv 2025) · HART (ICLR 2025) · Layton (arXiv 2025) · WeTok (arXiv 2025) · NativeTok (arXiv 2026) · ImageFolder (ICLR 2026) · TA-TiTok (ICCV 2025) · Highly Compressed Tokenizer (ICML 2025) · VTBench (arXiv 2025) · Instella-T2I (arXiv 2025)

详细链接见 org-roam 笔记 articles/TiTok 引用链与 1D Tokenizer 后续改进方向深度调研