Visual Encoders: An Academic Survey

2026/05/18 10:00:00·2026/05/19 11:30:00

AI视觉分词器·18 min read

survey visual_encoder computer_vision representation_learning

研究问题与范围

本综述围绕以下核心问题展开：

视觉编码器应该如何分类？ 从监督CNN到Transformer、自监督学习、多模态编码器、Latent Tokenizers，清晰的分类揭示设计权衡。
各家族有哪些归纳偏置？ 卷积局部性、全局注意力、对比对齐、离散化潜在空间——每个都编码了关于视觉结构的不同假设。
自监督和多模态范式如何重塑视觉理解？ 超越标签监督开启了新的缩放定律和迁移能力。
视觉编码与视觉生成的关系是什么？ Tokenizers和Latent Encoders桥接理解与生成，引发表示连续性vs离散性的问题。

范围： 时间线从2012（AlexNet）到2025，聚焦自监督和多模态学习的后2020发展。涵盖图像编码器，视频、3D、点云编码器在必要时提及但不系统覆盖。

第一章

监督视觉骨干网络

现代视觉编码时代始于在大规模图像分类（ImageNet ILSVRC）上训练的监督卷积网络。这些架构确立了局部连通性和平移等变性的基本归纳偏置，塑造了所有下游视觉编码范式。

AlexNet (2012)

核心论文："ImageNet Classification with Deep Convolutional Neural Networks" (Krizhevsky, Sutskeher, Hinton, 2012, NeurIPS)

AlexNet证明了一个深CNN（ReLU激活、dropout正则化、GPU加速训练）可以远超传统特征工程流程（SIFT + SVM）。架构使用5个卷积层加3个全连接层，top-5错误率 16.4%，确立了"ImageNet预训练+下游微调"的范式。

VGG (2014)

核心论文："Very Deep Convolutional Networks for Large-Scale Image Recognition" (Simonyan, Zisserman, 2015, ICLR)

极度简洁的设计原则：只使用3×3卷积滤波器深度堆叠，每次池化后通道数翻倍。VGG-16（138M参数）和VGG-19证明了深度本身是关键因素。

ResNet (2015)

核心论文："Deep Residual Learning for Image Recognition" (He, Zhang, Ren, Sun, 2016, CVPR)

引入跳跃连接（残差连接），允许梯度通过恒等快捷方式直接流动，使网络学习残差函数 F(x) = H(x) - x。ILSVRC 2015 以 top-5 错误率 3.57% 获胜，超越人类水平。残差连接成为此后几乎所有架构的默认设计。

EfficientNet (2019)

核心论文："EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks" (Tan, Le, 2019, ICML)

提出复合缩放，根据NAS确定的固定比率联合缩放网络深度、宽度和输入分辨率。EfficientNet-B7 达到 84.3% top-1（66B FLOPs），引入了从 B0 到 B7 的模型家族概念。

ConvNeXt (2022)

核心论文："A ConvNet for the 2020s" (Liu et al., 2022, CVPR)

纯卷积网络现代化ResNet：融入ViT的设计选择（更大核、深度可分离卷积、倒置瓶颈、LayerNorm、GELU）但不使用注意力。核心信息：训练配方和架构同样重要——用ViT的训练配方训练ResNet，性能差距大幅缩小。

监督骨干网络性能对比

架构	年份	Top-1	参数量	核心创新
AlexNet	2012	62.5%	60M	深度 CNN、ReLU、Dropout
VGG-16	2014	71.5%	138M	3×3 卷积堆叠、深度优先
ResNet-152	2015	78.3%	60M	残差连接、瓶颈设计
EfficientNet-B7	2019	84.3%	66M	复合缩放、NAS
ConvNeXt-B	2022	83.8%	89M	现代 CNN 训练配方

第二章

基于Transformer的视觉编码器

图：ViT 将图像分割为 16×16 的 patch，线性嵌入后通过标准 Transformer 编码器处理（来源：Dosovitskiy et al., ICLR 2021）

图：ViT 的 Patch Embedding 过程（来源：Dosovitskiy et al., ICLR 2021）

ViT (2020)

核心论文："An Image is Worth 16x16 Words" (Dosovitskiy et al., 2021, ICLR)

ViT将图像分割成固定大小的patch（通常16×16），线性嵌入每个patch，添加位置嵌入，将结果序列输入标准Transformer编码器。架构完全放弃卷积归纳偏置，将图像识别作为序列分类问题处理。

关键发现：ViT 在 JFT-300M 级别数据预训练时超越 CNN，但在 ImageNet（1.3M）上不如 ResNet。这确定了预训练数据规模的关键作用。其 patch 嵌入范式此后几乎所有视觉 Transformer 都遵循。

局限：全局自注意力 $$O(n^2)$$ 复杂度使其在高分辨率下计算昂贵，且缺乏空间归纳偏置需要更多数据来学习 CNN "天然拥有"的空间关系。

DeiT (2021)

核心论文："Training data-efficient image transformers & distillation through attention" (Touvron et al., 2021, ICML)

通过强数据增强、正则化和蒸馏 token 策略，使 ViT 仅在 ImageNet 上就能训练至竞争水平（ViT-S 83.1%，ViT-B 85.2%）。蒸馏 token 让学生学习 CNN 教师的局部特征归纳偏置。

Swin Transformer (2021)

核心论文："Swin Transformer: Hierarchical Vision Transformer using Shifted Windows" (Liu et al., 2021, ICCV)

分层 Transformer + 移位窗口注意力。在局部窗口（7×7 patch）内计算注意力，层间移位窗口实现跨窗口信息交换。线性复杂度 + 多尺度特征 = 密集预测任务的默认骨干。

PVT / MViT

PVT："Pyramid Vision Transformer" (Wang et al., 2021, ICCV) — 首个纯 Transformer 金字塔骨干，空间缩减注意力降低早期阶段的计算量。

MViT："Multiscale Vision Transformers" (Fan et al., 2021, ICCV) — 池化注意力实现多尺度架构，概念上比 Swin 的移位窗口更简洁。

第三章

自监督视觉表示学习

图：DINOv2 的自监督视觉特征在大规模预训练后的通用能力，无需微调即可处理分割、深度估计、检索等下游任务（来源：Oquab et al., TMLR 2024）

对比方法

SimCLR (2020)：最大化相同图像增强视图间的一致性（NT-Xent 损失）。需要大批量（4096）提供足够负样本。

MoCo (2020)：动量更新的负表示队列，将字典大小与批量大小解耦，标准批量（256）即可有效训练。

SwAV (2020)：在线聚类替代成对对比，multi-crop 策略提升特征质量。

非对比与自蒸馏方法

BYOL (2020)：非对称架构（在线网络 + 目标网络）+ stop-gradient 防止崩溃，无需负样本。

DINO (2021)：自蒸馏框架。发现：DINO 训练的 ViT 自发产生语义分割能力——注意力图聚焦前景物体，无需任何分割监督。

iBOT (2021)：统一自蒸馏 + 掩码预测。教师网络同时作为 masked patch prediction 的 tokenizer。

DINOv2 (2023)：将 DINO+iBOT 扩展到 142M 策划图像（LVD-142M）+ ViT-g（1.1B 参数）。关键发现：数据策划比原始数据量更重要。在密集预测任务上无需微调即可匹配有监督基线。

掩码图像建模（MIM）

MAE (2021)：掩码 75% 的 patch，非对称编码器-解码器重建像素值。极高的掩码比例迫使编码器学习全局语义。

BEiT (2021)：用 dVAE tokenizer 将 patch 离散化，预测掩码 patch 的离散 token ID。

EVA (2022)：预训练 ViT 重建 CLIP 教师的掩码 patch token，CLIP 特征作为语义丰富的重建目标。

第四章

多模态视觉编码器

图：DINOv2 特征在 ImageNet 线性探测、K-NN 分类和微调上的表现——自监督方法已全面逼近有监督基线（来源：Oquab et al., TMLR 2024）

CLIP (2021)

核心论文："Learning Transferable Visual Models From Natural Language Supervision" (Radford et al., 2021, ICML)

在 4 亿图文对上训练图像-文本双编码器。最大化匹配对余弦相似度、最小化非匹配对。开辟了零样本分类的新范式。

ALIGN / SigLIP / EVA-CLIP

ALIGN (2021)：扩展到 18 亿噪声图文对，证明规模和多样性可补偿标签噪声。

SigLIP (2023)：成对 sigmoid 损失替代 softmax，消除大批量同步归一化的需求。

EVA-CLIP (2023)：MIM 预训练 EVA + CLIP 对比对齐 = 强空间理解 + 丰富语义。

VLM 中的视觉塔

视觉编码器在 VLM 中承担"感知眼睛"角色。三个核心设计决策：

维度	选项	代表模型	权衡
编码器选择	CLIP ViT-L/14	LLaVA-1.5、Qwen-VL	强语义对齐
编码器选择	SigLIP / EVA-CLIP	InternVL、Qwen2-VL	更大规模
桥接策略	线性投影	LLaVA	简单高效
桥接策略	Q-Former	BLIP-2	交叉注意力融合
桥接策略	Pixel Shuffle	InternVL	高分辨率适配
训练策略	冻结	LLaVA	保留预训练语义
训练策略	部分解冻	InternVL	后几层适应任务

InternVL 系列：视觉编码器扩展到 6B 参数 + 渐进式解冻策略，在 CCEval 上表明分辨率和规模是关键变量。

第五章

视觉 Tokenizers 与 Latent Encoders

图：DINOv2 自监督特征 vs CLIP 文本对齐特征在各类别下游任务上的零样本迁移对比（来源：Oquab et al., TMLR 2024）

Tokenizers 三大范式

图：TiTok 的 1D Tokenization 架构——ViT 编码器将图像压缩为与分辨率解耦的 32 个 latent tokens（来源：Tian et al., NeurIPS 2024）

家族	代表	Token 数	码本	生成范式	核心优势
2D 离散	VQGAN、dVAE	256（16×16）	8K-32K	AR / MaskGIT	结构成熟
1D 离散	TiTok、MAGVIT-v2	32-256（解耦分辨率）	262K（LFQ）	MaskGIT / AR	全局建模
连续-离散混合	HART、SoftVQ-VAE	128-256	连续+离散	AR+Diffusion	重建保真最高
语义正则化	GigaTok、MAETok	128-512	语义对齐	AR	理解+生成兼顾

VQ-VAE (2017)

核心论文："Neural Discrete Representation Learning" (van den Oord et al., 2018, NeurIPS)

向量量化引入 VAE 框架。编码器产生连续潜在向量，映射到学习码本最近条目。离散瓶颈使自回归先验可在量化代码上建模。

VQGAN (2021)

核心论文："Taming Transformers for High-Resolution Image Synthesis" (Esser et al., 2021, CVPR)

对抗训练 + 感知损失增强 VQ-VAE。GAN 判别器鼓励感知锐利重建，感知损失保持结构相似性。

TiTok (2024) — 1D Tokenization 的奠基

传统 2D tokenizer 的 token 数与图像分辨率绑定（256×256 → 256 tokens）。TiTok 的解法：编码端 ViT 处理 patch 序列 + K 个可学习 latent tokens，最终只保留 latent tokens。256×256 图像压缩为仅 32 个 token。

洞察：TiTok 的码本像"字母表"——单个 token 无明确语义，必须拼成整体；VQGAN 的码本像"词典"——单个 token 有语义但组合受约束。

MAGVIT-v2 (2024)

Lookup-free Quantization (LFQ) + 大码本（ $2^{18}$ = 262,144 条目）。核心论点："tokenizer > generator"——更好的 tokenizer 设计比更复杂的生成模型更重要。

HART — 连续-离散混合

离散 token（大局）+ 连续残差 token（细节），仅 37M 参数的残差扩散模块，重建 FID 从 2.11 降至 0.30。离散负责序列建模（AR 友好），连续负责高保真重建。

GigaTok (ICCV 2025)

30 亿参数 + 语义正则化。系统回答了"tokenizer 变大后重建与生成为何此消彼长"——根源在于潜在空间复杂度失控。

MAETok (2025)

MAE 作为 tokenizer 骨干。核心发现：变分约束非必需，有判别性的潜在空间结构才是关键。ImageNet 生成仅用 128 tokens 达到 gFID 1.69，训练快 76 倍。

SoftVQ-VAE (CVPR 2025)

软分类概率替代硬量化，桥接离散和连续的表示学习。

GNN / 超图

图神经网络代表第三范式：将图像建模为图（patch 为节点），提供灵活的非局部关系建模。ViG（NeurIPS 2022）→ MobileViG → GreedyViG → DVHGNN（2025, 83.1%）的演进路线。尚未超越最优 CNN/ViT，但在参数效率和拓扑灵活性上有独特优势。

扩散 Latent Encoders

Stable Diffusion 等用自编码器将图像压缩到低维潜在空间。质量直接决定生成天花板和扩散效率。

Tokenizer 与生成范式的自然匹配

Tokenizer	自然生成器	关键特性
2D VQGAN	顺序 AR（Parti、LlamaGen）	局部 token、因果预测
2D VQGAN	并行 MaskGIT	并行解码，token 不可修正
1D TiTok	渐进式 Unmask	全局 token、进度揭示
1D MAGVIT-v2	纯 AR + LFQ	"LM 超越 Diffusion"
混合 HART	AR（离散）+ Diffusion（连续）	兼得两者

第六章

评估协议与开放问题

图：DINOv2 自监督特征 vs CLIP 在各类别上的零样本对比——自监督与文本对齐各有胜负（来源：Oquab et al., TMLR 2024）

评估协议

维度	协议	指标	适用
特征质量	线性探测	ImageNet Top-1	所有编码器
语义聚类	k-NN	k-NN 准确率	自监督编码器
可迁移性	微调	ADE20K mIoU、COCO AP	所有编码器
跨模态对齐	零样本	ImageNet Zero-shot	CLIP/SigLIP
重建保真	Tokenizer 重建	rFID、PSNR、LPIPS	Tokenizers
生成质量	条件生成	gFID、IS	AR Tokenizers

VTBench（arXiv:2505.13439）：首个系统性 Tokenizer 评估基准，四个维度——重建质量、空间结构、细粒度纹理、文本渲染。核心发现：连续 VAE 表示在所有维度上全面优于离散 Tokenizer。

Tokenizers 核心指标

rFID：重建质量。< 1.0 视为高质量。
gFID：生成质量。< 2.0 良好，< 1.0 最优（MAGVIT-v2 达 0.76）。
码本利用率：< 50% 表明码本坍塌。
压缩比：TiTok 可达 64:1。

开放问题

理解-生成二元性：单一编码器能否同时服务理解和生成？
视觉 SSL 的缩放定律：缩放行为（模型大小、数据、计算）尚欠系统刻画。
离散 vs 连续：LM 需离散 token，最优生成在连续空间。桥接表示在哪？
时空一致性：视频中的时间编码缺乏原则性处理。
边缘效率：ViT-g（1.1B）与部署约束冲突。
Tokenizer 质量瓶颈：tokenizer > generator 已成共识。
编码-解码耦合：ProgressiveDiTok 证明渐进式信息传递有效。编码过程本身是否应有时序结构？

结论

关键结论

视觉编码器从监督 CNN 经 Transformer、自监督、多模态对齐发展到专用 tokenizers，每个范式都扩展了视觉表示的能力。
自监督学习（DINO/iBOT/DINOv2）已基本弥合与有监督预训练的差距，同时产生涌现特性（语义分割、对象中心注意力）。
编码器选择越来越任务依赖：CLIP 用于开放词汇理解，DINO 用于密集预测，MAE ViT 用于微调，专用 tokenizers 用于生成。
前沿正收敛于双用途 tokenizers问题——重建保真度、语义质量、离散化的三难困境是核心开放挑战。