离散分词器：从原理到应用的全面综述

2026/05/18 00:00:00·2026/05/19 10:15:00

背景与核心问题

离散分词器（Discrete Tokenizers）是现代机器学习系统的核心组件，特别是在自回归建模和大语言模型（LLMs）背景下。它们作为关键接口，将来自不同模态的原始非结构化数据转换为离散 token，使 LLM 能够在广泛的任务中有效运作。

这篇综述（快手 & 香港城市大学联合发表，arXiv:2502.12448）系统性地回答了以下问题：

分词器的 Encoder-Quantizer-Decoder 子模块如何协同工作？
不同的量化方法（VQ / RQ / LFQ / FSQ / GRVQ）各有何技术本质和权衡？
离散分词器如何服务于生成、理解、推荐、信息检索四大应用？
当前的主要挑战和未来方向是什么？

💡 关键洞察

分词器质量直接决定 LLM 性能上限。 次优的 tokenization 会导致下游任务显著退化——这与"MAGVIT-v2: Language Model Beats Diffusion — Tokenizer is Key to Visual Generation"的核心论点一致。

整体架构：Encoder — Quantizer — Decoder

离散分词器由三个核心子模块组成：

图 1：离散分词器的通用流程与应用场景

编码器（Encoder）

将原始连续输入（像素、音频波形、文本）压缩为潜在表示。Backbone 架构演进：

架构类型	代表工作	适用模态	特点
CNN-based	VQGAN, MAGVIT, SoundStream	图像/视频/音频	高效率，局部特征强
Transformer-based	ViT-VQGAN, SEED, TiTok, OmniTokenizer	图像/视频	全局建模强，可扩展性好
混合架构	Chameleon, ShowO	多模态	跨模态共享，参数共享

量化器（Quantizer）

将连续潜在向量映射到离散码本中的最近邻——这是分词器的核心创新点。不同的量化方法对应不同的技术路线（见下一节）。

解码器（Decoder）

将离散 token 重建回原始数据空间。直通估计器（STE）在反向传播中允许梯度流经离散量化操作，使整个流程端到端可微。

量化方法分类

这篇综述最重要的贡献之一：首次将 RQ、LFQ、FSQ、GRVQ 等方法纳入统一分类体系。按量化方法可分为五类：

VQ（向量量化）— 经典方法

原理：将高维连续向量映射到有限码本中的最近邻，通过承诺损失（commitment loss）约束编码器输出接近码本向量。

代表工作：VQ-VAE、VQGAN、ViT-VQGAN、SEED、TiTok

问题：码本坍塌（codebook collapse）——大码本中大量条目未被使用，优化困难。

RQ（残差量化）— 多层逼近

原理：每层量化前一层产生的残差误差，逐层精细化。整体表示为 S 个码字的和：

\mathbf{c} = [\mathcal{C}_0(\mathbf{r}_0), \mathcal{C}_1(\mathbf{r}_1), ..., \mathcal{C}_S(\mathbf{r}_S)]

代表工作：RQVAE、SoundStream（4-8层 RQ）、SpeechTokenizer

优势：高压缩率，分层表示；第一层包含主要信息，后续层细化残差。

LFQ（无查找量化）— 隐式码本

原理：将潜在空间分解为二进制维度，每个维度独立量化为 {-1, +1}。码本空间为 $C = \prod_{i=1}^{\log_2 K} C_i$ ，无需显式码本查找。

代表工作：MAGVIT-v2、ShowO

优势：减少内存占用，适合大规模应用；训练更稳定。

FSQ（有限标量量化）— 无码本量化

原理：通过变换 f 将编码表示投影到几个维度，每个维度舍入到固定值集合，形成隐式码本。

代表工作：Cosmos（NVIDIA）、VidTok、ElasticTok

特点：确定性映射，无 codebook collapse，但表示能力受限。

GRVQ（分组残差量化）— 平衡压缩率

原理：将向量分组后分别进行残差量化，平衡压缩率和重建质量。

代表工作：HiFiCodec（音频）

🔬 技术洞察（来自 Ming 的 AR 建模范式分析）

FSQ vs LFQ 对 AR 建模的影响：FSQ（确定性映射，无码本）的梯度特性与 LFQ（隐式码本）有本质差异。FSQ 是确定性舍入，梯度由反向传播的 STE 估计；LFQ 的 sign 函数在零点不可导，需要特殊处理。对 AR 模型的训练稳定性来说，这是未充分讨论的空白。

1D tokenizer 输出格式 vs 因果掩码：SEED、TiTok 等 1D tokenizer 的输出是序列化 token，AR 因果约束作用于 token 序列（见 1D Tokenizer）。但如果 tokenizer 输出按量化顺序（而非空间/语义顺序）排列，AR 的因果约束就失去意义——这个细节在 Section 3.1 的 AR 图像生成讨论中没有被深入。

应用一：生成（Generation）

图像生成

方法	量化器	关键贡献
VQGAN	VQ	引入对抗训练 + 感知损失，高分辨率图像生成
RQVAE	RQ	残差量化减少序列长度，支持更长图像生成
SEED	VQ	1D 因果依赖 + 高层语义表示，生成离散视觉编码
TiTok	VQ	1D tokenization，256×256 → 32 tokens，分辨率解耦
MAGVIT-v2	LFQ	共享码本统一图像/视频 tokenization，因果 3D-CNN
Cosmos	FSQ	NVIDIA 视频分词器，无码本设计

视频生成

MAGVIT 系列建立时空联合 tokenization 范式，OmniTokenizer 用空间-时间解耦 Transformer + 渐进训练联合处理图像和视频。Cosmos 和 VidTok 采用 FSQ 替代 VQ，在高压缩比（128-256×）下保持时空一致性。

音频生成

SoundStream（因果卷积）、HiFiCodec（多尺度 STFT 损失 + GRVQ）、SpeechTokenizer（语义-声学分离，分层 RQ）构成音频分词器的主流路线。

💡 与我们研究的关系

ProgressiveDiTok 的定位：这篇综述的应用分类是图像/视频/音频/推荐，但 diffusion-as-encoder（用扩散逆过程做信息传递）是一个独立方向，不是简单的"又一个应用"。ProgressiveDiTok 的编码端耦合加噪过程、解码端逐步恢复，恰好对应这个技术本质。Stage 2 训练流程详见 DiTok Stage 2 训练指南。建议在 Section 3 的框架之外单独讨论"diffusion + tokenizer"的互补性。

应用二：多模态理解（Comprehension）

AR 大模型的出现标志了生成与理解能力的统一。分词器将任意模态离散化为 token 序列，构建通用接口连接多元数据与基于 Transformer 的 LLM。

视觉-语言理解

TEAL、AnyGPT 用模态特定分词器将图像、文本、音频信息统一为离散 token 序列。Chameleon（Meta）和 Show-O（LFQ）通过统一 tokenization 实现"token-in-token-out"多模态大模型。

动态视觉 tokenization

LaViT 和 ElasticTok 解决"固定 token 数量 vs 视觉内容差异"的矛盾，生成保持高层语义的动态离散 token。

音频理解

RepCodec 通过重构语音编码器的表示来学习 VQ 码本；SpeechTokenizer 统一语义 token 和声学 token，分层 RQ 增强语音-语言对齐；NeuralSpeech-3 将语音分解为内容、韵律、音色、声学细节等子空间。

应用三：推荐系统（Recommendation）

传统推荐系统依赖随机分配的 ItemID/UserID，缺乏语义信息，高度依赖历史交互数据。语义 ID（Semantic ID）通过分词器将 item 内容语义（文本描述、视觉特征）映射为离散 token，有效解决冷启动和长尾分布问题。

TIGER（先驱）

生成式推荐框架：内容编码器 → RQVAE 语义 ID 分词器 → Transformer 自回归推荐器。YouTube 线上实验证明语义 ID 方案在冷启动 item 上显著提升泛化能力。

技术路线对比

方法	量化器	核心技术
TIGER	RQ	内容嵌入 → RQ 语义 ID → AR 推荐
TokenRec	MQ-VQ	掩码向量量化分词器，增强 token 泛化
VQ-Rec	PQ	BERT 文本嵌入 + 产品量化，跨域迁移
LC-Rec	RQ	LLaMA 嵌入 → 分层 item token
LETTER / CoST	RQ	基于 RQ 的分层 item token，层级结构

应用四：信息检索（Information Retrieval）

生成式信息检索是新兴范式，分词器将文档语义结构化为离散 doc token，用于可微搜索索引。

DSI 通过层次化 k-means 在文档嵌入上构建语义结构化 doc token；Ultron 用 PQ 压缩稠密向量空间；LMINDEXER 和 GenRet 用编码器-解码器 Transformer 自回归生成语义连续表示，再量化为离散 token；RIPOR 用 RQ 捕捉层次化文档结构，减少 doc token 长度以提升推理效率。

挑战与未来方向

当前主要挑战

压缩率 vs 重建质量的权衡：高压缩（更少 token）导致信息损失；增加 token 数则指数级增加序列长度和计算成本。
理解 vs 生成的权衡：单一视觉编码器难以同时优化理解和生成。DeepSeek Janus 实验表明，VQ Tokenizer 下多模态理解性能显著低于专用语义分词器。
码本坍塌与利用率：有限码本导致训练时只有少数条目被有效使用。LFQ/FSQ 等无码本方法正在解决这一问题。
跨模态对齐与一致性：多模态系统中不同模态 token 之间的语义对齐在实时场景下尤其困难。
与基础模型的集成：token 词汇表与 LLM 架构的对齐、计算开销管理、模态间分布不匹配导致的训练不稳定。

未来研究方向

自适应动态分词：自动调整词汇大小、分层结构，兼顾细粒度细节和高层语义。
高效训练与推理：轻量级架构、参数高效适应方法，在资源受限环境下保持高质量。
架构创新：统一分词框架（TEAL）、字节级模型（BLT 绕过 tokenization）、更好的效率-泛化权衡。

🔬 关于 diffusion + tokenizer 的补充说明

这篇综述将 diffusion 归入"应用"类别（图像/视频/音频生成），但从技术本质看，用扩散逆过程做编码（diffusion-as-encoder）与传统 VQ tokenizer 是平行关系而非子集。建议在后续版本中将 diffusion-as-encoder 独立为 Section 3.x，与 VQ / RQ / LFQ / FSQ 的技术方法并列讨论——因为 ProgressiveDiTok 的核心创新正是这个耦合：编码端逐步传递信息，解码端逐步恢复，编解码过程本身具有时间结构。

与我们研究的关联

这篇的方法	我们关注的演进方向	关联点
TiTok（1D VQ）	1D Visual Tokenizer	固定长度 token，token 数量与分辨率解耦。详见 1d-tokenizer 的设计分析。
MAGVIT-v2（LFQ）	无码本量化	突破码本坍塌，支持大规模
HART / SoftVQ-VAE	连续-离散混合	双流编码器的技术基础
Cosmos（FSQ）	扩散 + tokenizer	diffusion-as-encoder 的新路线
GigaTok（语义正则化）	语义外置与规模化	billion-scale tokenizer 思路

这篇可作为 Arthur 的 Visual Encoders Survey 第五节（Visual Tokenizers）的技术细节补充——两篇互补：前者按架构演进分类（2D 离散 / 1D 离散 / 混合），这篇按量化方法分类，是更细粒度的维度。