离散分词器:从原理到应用
背景与核心问题
离散分词器(Discrete Tokenizers)是现代机器学习系统的核心组件,特别是在自回归建模和大语言模型(LLMs)背景下。它们作为关键接口,将来自不同模态的原始非结构化数据转换为离散 token,使 LLM 能够在广泛的任务中有效运作。
这篇综述(快手 & 香港城市大学联合发表,arXiv:2502.12448)系统性地回答了以下问题:
- 分词器的 Encoder-Quantizer-Decoder 子模块如何协同工作?
- 不同的量化方法(VQ / RQ / LFQ / FSQ / GRVQ)各有何技术本质和权衡?
- 离散分词器如何服务于生成、理解、推荐、信息检索四大应用?
- 当前的主要挑战和未来方向是什么?
💡 关键洞察
分词器质量直接决定 LLM 性能上限。 次优的 tokenization 会导致下游任务显著退化——这与"MAGVIT-v2: Language Model Beats Diffusion — Tokenizer is Key to Visual Generation"的核心论点一致。
整体架构:Encoder — Quantizer — Decoder
离散分词器由三个核心子模块组成:
图 1:离散分词器的通用流程与应用场景
编码器(Encoder)
将原始连续输入(像素、音频波形、文本)压缩为潜在表示。Backbone 架构演进:
| 架构类型 | 代表工作 | 适用模态 | 特点 |
|---|---|---|---|
| CNN-based | VQGAN, MAGVIT, SoundStream | 图像/视频/音频 | 高效率,局部特征强 |
| Transformer-based | ViT-VQGAN, SEED, TiTok, OmniTokenizer | 图像/视频 | 全局建模强,可扩展性好 |
| 混合架构 | Chameleon, ShowO | 多模态 | 跨模态共享,参数共享 |
量化器(Quantizer)
将连续潜在向量映射到离散码本中的最近邻——这是分词器的核心创新点。不同的量化方法对应不同的技术路线(见下一节)。
解码器(Decoder)
将离散 token 重建回原始数据空间。直通估计器(STE)在反向传播中允许梯度流经离散量化操作,使整个流程端到端可微。
量化方法分类
这篇综述最重要的贡献之一:首次将 RQ、LFQ、FSQ、GRVQ 等方法纳入统一分类体系。按量化方法可分为五类:
VQ(向量量化)— 经典方法
原理:将高维连续向量映射到有限码本中的最近邻,通过承诺损失(commitment loss)约束编码器输出接近码本向量。
代表工作:VQ-VAE、VQGAN、ViT-VQGAN、SEED、TiTok
问题:码本坍塌(codebook collapse)——大码本中大量条目未被使用,优化困难。
RQ(残差量化)— 多层逼近
原理:每层量化前一层产生的残差误差,逐层精细化。整体表示为 S 个码字的和:
代表工作:RQVAE、SoundStream(4-8层 RQ)、SpeechTokenizer
优势:高压缩率,分层表示;第一层包含主要信息,后续层细化残差。
LFQ(无查找量化)— 隐式码本
原理:将潜在空间分解为二进制维度,每个维度独立量化为 {-1, +1}。码本空间为 $C = \prod_{i=1}^{\log_2 K} C_i$,无需显式码本查找。
代表工作:MAGVIT-v2、ShowO
优势:减少内存占用,适合大规模应用;训练更稳定。
FSQ(有限标量量化)— 无码本量化
原理:通过变换 f 将编码表示投影到几个维度,每个维度舍入到固定值集合,形成隐式码本。
代表工作:Cosmos(NVIDIA)、VidTok、ElasticTok
特点:确定性映射,无 codebook collapse,但表示能力受限。
GRVQ(分组残差量化)— 平衡压缩率
原理:将向量分组后分别进行残差量化,平衡压缩率和重建质量。
代表工作:HiFiCodec(音频)
🔬 技术洞察(来自 Ming 的 AR 建模范式分析)
FSQ vs LFQ 对 AR 建模的影响:FSQ(确定性映射,无码本)的梯度特性与 LFQ(隐式码本)有本质差异。FSQ 是确定性舍入,梯度由反向传播的 STE 估计;LFQ 的 sign 函数在零点不可导,需要特殊处理。对 AR 模型的训练稳定性来说,这是未充分讨论的空白。
1D tokenizer 输出格式 vs 因果掩码:SEED、TiTok 等 1D tokenizer 的输出是序列化 token,AR 因果约束作用于 token 序列(见 1D Tokenizer)。但如果 tokenizer 输出按量化顺序(而非空间/语义顺序)排列,AR 的因果约束就失去意义——这个细节在 Section 3.1 的 AR 图像生成讨论中没有被深入。
应用一:生成(Generation)
图像生成
| 方法 | 量化器 | 关键贡献 |
|---|---|---|
| VQGAN | VQ | 引入对抗训练 + 感知损失,高分辨率图像生成 |
| RQVAE | RQ | 残差量化减少序列长度,支持更长图像生成 |
| SEED | VQ | 1D 因果依赖 + 高层语义表示,生成离散视觉编码 |
| TiTok | VQ | 1D tokenization,256×256 → 32 tokens,分辨率解耦 |
| MAGVIT-v2 | LFQ | 共享码本统一图像/视频 tokenization,因果 3D-CNN |
| Cosmos | FSQ | NVIDIA 视频分词器,无码本设计 |
视频生成
MAGVIT 系列建立时空联合 tokenization 范式,OmniTokenizer 用空间-时间解耦 Transformer + 渐进训练联合处理图像和视频。Cosmos 和 VidTok 采用 FSQ 替代 VQ,在高压缩比(128-256×)下保持时空一致性。
音频生成
SoundStream(因果卷积)、HiFiCodec(多尺度 STFT 损失 + GRVQ)、SpeechTokenizer(语义-声学分离,分层 RQ)构成音频分词器的主流路线。
💡 与我们研究的关系
ProgressiveDiTok 的定位:这篇综述的应用分类是图像/视频/音频/推荐,但 diffusion-as-encoder(用扩散逆过程做信息传递)是一个独立方向,不是简单的"又一个应用"。ProgressiveDiTok 的编码端耦合加噪过程、解码端逐步恢复,恰好对应这个技术本质。Stage 2 训练流程详见 DiTok Stage 2 训练指南。建议在 Section 3 的框架之外单独讨论"diffusion + tokenizer"的互补性。
应用二:多模态理解(Comprehension)
AR 大模型的出现标志了生成与理解能力的统一。分词器将任意模态离散化为 token 序列,构建通用接口连接多元数据与基于 Transformer 的 LLM。
视觉-语言理解
TEAL、AnyGPT 用模态特定分词器将图像、文本、音频信息统一为离散 token 序列。Chameleon(Meta)和 Show-O(LFQ)通过统一 tokenization 实现"token-in-token-out"多模态大模型。
动态视觉 tokenization
LaViT 和 ElasticTok 解决"固定 token 数量 vs 视觉内容差异"的矛盾,生成保持高层语义的动态离散 token。
音频理解
RepCodec 通过重构语音编码器的表示来学习 VQ 码本;SpeechTokenizer 统一语义 token 和声学 token,分层 RQ 增强语音-语言对齐;NeuralSpeech-3 将语音分解为内容、韵律、音色、声学细节等子空间。
应用三:推荐系统(Recommendation)
传统推荐系统依赖随机分配的 ItemID/UserID,缺乏语义信息,高度依赖历史交互数据。语义 ID(Semantic ID)通过分词器将 item 内容语义(文本描述、视觉特征)映射为离散 token,有效解决冷启动和长尾分布问题。
TIGER(先驱)
生成式推荐框架:内容编码器 → RQVAE 语义 ID 分词器 → Transformer 自回归推荐器。YouTube 线上实验证明语义 ID 方案在冷启动 item 上显著提升泛化能力。
技术路线对比
| 方法 | 量化器 | 核心技术 |
|---|---|---|
| TIGER | RQ | 内容嵌入 → RQ 语义 ID → AR 推荐 |
| TokenRec | MQ-VQ | 掩码向量量化分词器,增强 token 泛化 |
| VQ-Rec | PQ | BERT 文本嵌入 + 产品量化,跨域迁移 |
| LC-Rec | RQ | LLaMA 嵌入 → 分层 item token |
| LETTER / CoST | RQ | 基于 RQ 的分层 item token,层级结构 |
应用四:信息检索(Information Retrieval)
生成式信息检索是新兴范式,分词器将文档语义结构化为离散 doc token,用于可微搜索索引。
DSI 通过层次化 k-means 在文档嵌入上构建语义结构化 doc token;Ultron 用 PQ 压缩稠密向量空间;LMINDEXER 和 GenRet 用编码器-解码器 Transformer 自回归生成语义连续表示,再量化为离散 token;RIPOR 用 RQ 捕捉层次化文档结构,减少 doc token 长度以提升推理效率。
挑战与未来方向
当前主要挑战
- 压缩率 vs 重建质量的权衡:高压缩(更少 token)导致信息损失;增加 token 数则指数级增加序列长度和计算成本。
- 理解 vs 生成的权衡:单一视觉编码器难以同时优化理解和生成。DeepSeek Janus 实验表明,VQ Tokenizer 下多模态理解性能显著低于专用语义分词器。
- 码本坍塌与利用率:有限码本导致训练时只有少数条目被有效使用。LFQ/FSQ 等无码本方法正在解决这一问题。
- 跨模态对齐与一致性:多模态系统中不同模态 token 之间的语义对齐在实时场景下尤其困难。
- 与基础模型的集成:token 词汇表与 LLM 架构的对齐、计算开销管理、模态间分布不匹配导致的训练不稳定。
未来研究方向
- 自适应动态分词:自动调整词汇大小、分层结构,兼顾细粒度细节和高层语义。
- 高效训练与推理:轻量级架构、参数高效适应方法,在资源受限环境下保持高质量。
- 架构创新:统一分词框架(TEAL)、字节级模型(BLT 绕过 tokenization)、更好的效率-泛化权衡。
🔬 关于 diffusion + tokenizer 的补充说明
这篇综述将 diffusion 归入"应用"类别(图像/视频/音频生成),但从技术本质看,用扩散逆过程做编码(diffusion-as-encoder)与传统 VQ tokenizer 是平行关系而非子集。建议在后续版本中将 diffusion-as-encoder 独立为 Section 3.x,与 VQ / RQ / LFQ / FSQ 的技术方法并列讨论——因为 ProgressiveDiTok 的核心创新正是这个耦合:编码端逐步传递信息,解码端逐步恢复,编解码过程本身具有时间结构。
与我们研究的关联
| 这篇的方法 | 我们关注的演进方向 | 关联点 |
|---|---|---|
| TiTok(1D VQ) | 1D Visual Tokenizer | 固定长度 token,token 数量与分辨率解耦。详见 1d-tokenizer 的设计分析。 |
| MAGVIT-v2(LFQ) | 无码本量化 | 突破码本坍塌,支持大规模 |
| HART / SoftVQ-VAE | 连续-离散混合 | 双流编码器的技术基础 |
| Cosmos(FSQ) | 扩散 + tokenizer | diffusion-as-encoder 的新路线 |
| GigaTok(语义正则化) | 语义外置与规模化 | billion-scale tokenizer 思路 |
这篇可作为 Arthur 的 Visual Encoders Survey 第五节(Visual Tokenizers)的技术细节补充——两篇互补:前者按架构演进分类(2D 离散 / 1D 离散 / 混合),这篇按量化方法分类,是更细粒度的维度。