Visual Encoders: An Academic Survey
研究问题与范围
本综述围绕以下核心问题展开:
- 视觉编码器应该如何分类? 从监督CNN到Transformer、自监督学习、多模态编码器、Latent Tokenizers,清晰的分类揭示设计权衡。
- 各家族有哪些归纳偏置? 卷积局部性、全局注意力、对比对齐、离散化潜在空间——每个都编码了关于视觉结构的不同假设。
- 自监督和多模态范式如何重塑视觉理解? 超越标签监督开启了新的缩放定律和迁移能力。
- 视觉编码与视觉生成的关系是什么? Tokenizers和Latent Encoders桥接理解与生成,引发表示连续性vs离散性的问题。
范围: 时间线从2012(AlexNet)到2025,聚焦自监督和多模态学习的后2020发展。涵盖图像编码器,视频、3D、点云编码器在必要时提及但不系统覆盖。
现代视觉编码时代始于在大规模图像分类(ImageNet ILSVRC)上训练的监督卷积网络。这些架构确立了局部连通性和平移等变性的基本归纳偏置,塑造了所有下游视觉编码范式。
AlexNet (2012)
核心论文:"ImageNet Classification with Deep Convolutional Neural Networks" (Krizhevsky, Sutskeher, Hinton, 2012, NeurIPS)
AlexNet证明了一个深CNN(ReLU激活、dropout正则化、GPU加速训练)可以远超传统特征工程流程(SIFT + SVM)。架构使用5个卷积层加3个全连接层,top-5错误率 16.4%,确立了"ImageNet预训练+下游微调"的范式。
VGG (2014)
核心论文:"Very Deep Convolutional Networks for Large-Scale Image Recognition" (Simonyan, Zisserman, 2015, ICLR)
极度简洁的设计原则:只使用3×3卷积滤波器深度堆叠,每次池化后通道数翻倍。VGG-16(138M参数)和VGG-19证明了深度本身是关键因素。
ResNet (2015)
核心论文:"Deep Residual Learning for Image Recognition" (He, Zhang, Ren, Sun, 2016, CVPR)
引入跳跃连接(残差连接),允许梯度通过恒等快捷方式直接流动,使网络学习残差函数 F(x) = H(x) - x。ILSVRC 2015 以 top-5 错误率 3.57% 获胜,超越人类水平。残差连接成为此后几乎所有架构的默认设计。
EfficientNet (2019)
核心论文:"EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks" (Tan, Le, 2019, ICML)
提出复合缩放,根据NAS确定的固定比率联合缩放网络深度、宽度和输入分辨率。EfficientNet-B7 达到 84.3% top-1(66B FLOPs),引入了从 B0 到 B7 的模型家族概念。
ConvNeXt (2022)
核心论文:"A ConvNet for the 2020s" (Liu et al., 2022, CVPR)
纯卷积网络现代化ResNet:融入ViT的设计选择(更大核、深度可分离卷积、倒置瓶颈、LayerNorm、GELU)但不使用注意力。核心信息:训练配方和架构同样重要——用ViT的训练配方训练ResNet,性能差距大幅缩小。
监督骨干网络性能对比
| 架构 | 年份 | Top-1 | 参数量 | 核心创新 |
|---|---|---|---|---|
| AlexNet | 2012 | 62.5% | 60M | 深度 CNN、ReLU、Dropout |
| VGG-16 | 2014 | 71.5% | 138M | 3×3 卷积堆叠、深度优先 |
| ResNet-152 | 2015 | 78.3% | 60M | 残差连接、瓶颈设计 |
| EfficientNet-B7 | 2019 | 84.3% | 66M | 复合缩放、NAS |
| ConvNeXt-B | 2022 | 83.8% | 89M | 现代 CNN 训练配方 |
ViT (2020)
核心论文:"An Image is Worth 16x16 Words" (Dosovitskiy et al., 2021, ICLR)
ViT将图像分割成固定大小的patch(通常16×16),线性嵌入每个patch,添加位置嵌入,将结果序列输入标准Transformer编码器。架构完全放弃卷积归纳偏置,将图像识别作为序列分类问题处理。
关键发现:ViT 在 JFT-300M 级别数据预训练时超越 CNN,但在 ImageNet(1.3M)上不如 ResNet。这确定了预训练数据规模的关键作用。其 patch 嵌入范式此后几乎所有视觉 Transformer 都遵循。
局限:全局自注意力 $O(n^2)$ 复杂度使其在高分辨率下计算昂贵,且缺乏空间归纳偏置需要更多数据来学习 CNN "天然拥有"的空间关系。
DeiT (2021)
核心论文:"Training data-efficient image transformers & distillation through attention" (Touvron et al., 2021, ICML)
通过强数据增强、正则化和蒸馏 token 策略,使 ViT 仅在 ImageNet 上就能训练至竞争水平(ViT-S 83.1%,ViT-B 85.2%)。蒸馏 token 让学生学习 CNN 教师的局部特征归纳偏置。
Swin Transformer (2021)
核心论文:"Swin Transformer: Hierarchical Vision Transformer using Shifted Windows" (Liu et al., 2021, ICCV)
分层 Transformer + 移位窗口注意力。在局部窗口(7×7 patch)内计算注意力,层间移位窗口实现跨窗口信息交换。线性复杂度 + 多尺度特征 = 密集预测任务的默认骨干。
PVT / MViT
PVT:"Pyramid Vision Transformer" (Wang et al., 2021, ICCV) — 首个纯 Transformer 金字塔骨干,空间缩减注意力降低早期阶段的计算量。
MViT:"Multiscale Vision Transformers" (Fan et al., 2021, ICCV) — 池化注意力实现多尺度架构,概念上比 Swin 的移位窗口更简洁。
对比方法
SimCLR (2020):最大化相同图像增强视图间的一致性(NT-Xent 损失)。需要大批量(4096)提供足够负样本。
MoCo (2020):动量更新的负表示队列,将字典大小与批量大小解耦,标准批量(256)即可有效训练。
SwAV (2020):在线聚类替代成对对比,multi-crop 策略提升特征质量。
非对比与自蒸馏方法
BYOL (2020):非对称架构(在线网络 + 目标网络)+ stop-gradient 防止崩溃,无需负样本。
DINO (2021):自蒸馏框架。发现:DINO 训练的 ViT 自发产生语义分割能力——注意力图聚焦前景物体,无需任何分割监督。
iBOT (2021):统一自蒸馏 + 掩码预测。教师网络同时作为 masked patch prediction 的 tokenizer。
DINOv2 (2023):将 DINO+iBOT 扩展到 142M 策划图像(LVD-142M)+ ViT-g(1.1B 参数)。关键发现:数据策划比原始数据量更重要。在密集预测任务上无需微调即可匹配有监督基线。
掩码图像建模(MIM)
MAE (2021):掩码 75% 的 patch,非对称编码器-解码器重建像素值。极高的掩码比例迫使编码器学习全局语义。
BEiT (2021):用 dVAE tokenizer 将 patch 离散化,预测掩码 patch 的离散 token ID。
EVA (2022):预训练 ViT 重建 CLIP 教师的掩码 patch token,CLIP 特征作为语义丰富的重建目标。
CLIP (2021)
核心论文:"Learning Transferable Visual Models From Natural Language Supervision" (Radford et al., 2021, ICML)
在 4 亿图文对上训练图像-文本双编码器。最大化匹配对余弦相似度、最小化非匹配对。开辟了零样本分类的新范式。
ALIGN / SigLIP / EVA-CLIP
ALIGN (2021):扩展到 18 亿噪声图文对,证明规模和多样性可补偿标签噪声。
SigLIP (2023):成对 sigmoid 损失替代 softmax,消除大批量同步归一化的需求。
EVA-CLIP (2023):MIM 预训练 EVA + CLIP 对比对齐 = 强空间理解 + 丰富语义。
VLM 中的视觉塔
视觉编码器在 VLM 中承担"感知眼睛"角色。三个核心设计决策:
| 维度 | 选项 | 代表模型 | 权衡 |
|---|---|---|---|
| 编码器选择 | CLIP ViT-L/14 | LLaVA-1.5、Qwen-VL | 强语义对齐 |
| 编码器选择 | SigLIP / EVA-CLIP | InternVL、Qwen2-VL | 更大规模 |
| 桥接策略 | 线性投影 | LLaVA | 简单高效 |
| 桥接策略 | Q-Former | BLIP-2 | 交叉注意力融合 |
| 桥接策略 | Pixel Shuffle | InternVL | 高分辨率适配 |
| 训练策略 | 冻结 | LLaVA | 保留预训练语义 |
| 训练策略 | 部分解冻 | InternVL | 后几层适应任务 |
InternVL 系列:视觉编码器扩展到 6B 参数 + 渐进式解冻策略,在 CCEval 上表明分辨率和规模是关键变量。
Tokenizers 三大范式
| 家族 | 代表 | Token 数 | 码本 | 生成范式 | 核心优势 |
|---|---|---|---|---|---|
| 2D 离散 | VQGAN、dVAE | 256(16×16) | 8K-32K | AR / MaskGIT | 结构成熟 |
| 1D 离散 | TiTok、MAGVIT-v2 | 32-256(解耦分辨率) | 262K(LFQ) | MaskGIT / AR | 全局建模 |
| 连续-离散混合 | HART、SoftVQ-VAE | 128-256 | 连续+离散 | AR+Diffusion | 重建保真最高 |
| 语义正则化 | GigaTok、MAETok | 128-512 | 语义对齐 | AR | 理解+生成兼顾 |
VQ-VAE (2017)
核心论文:"Neural Discrete Representation Learning" (van den Oord et al., 2018, NeurIPS)
向量量化引入 VAE 框架。编码器产生连续潜在向量,映射到学习码本最近条目。离散瓶颈使自回归先验可在量化代码上建模。
VQGAN (2021)
核心论文:"Taming Transformers for High-Resolution Image Synthesis" (Esser et al., 2021, CVPR)
对抗训练 + 感知损失增强 VQ-VAE。GAN 判别器鼓励感知锐利重建,感知损失保持结构相似性。
TiTok (2024) — 1D Tokenization 的奠基
传统 2D tokenizer 的 token 数与图像分辨率绑定(256×256 → 256 tokens)。TiTok 的解法:编码端 ViT 处理 patch 序列 + K 个可学习 latent tokens,最终只保留 latent tokens。256×256 图像压缩为仅 32 个 token。
洞察:TiTok 的码本像"字母表"——单个 token 无明确语义,必须拼成整体;VQGAN 的码本像"词典"——单个 token 有语义但组合受约束。
MAGVIT-v2 (2024)
Lookup-free Quantization (LFQ) + 大码本($2^{18}$ = 262,144 条目)。核心论点:"tokenizer > generator"——更好的 tokenizer 设计比更复杂的生成模型更重要。
HART — 连续-离散混合
离散 token(大局)+ 连续残差 token(细节),仅 37M 参数的残差扩散模块,重建 FID 从 2.11 降至 0.30。离散负责序列建模(AR 友好),连续负责高保真重建。
GigaTok (ICCV 2025)
30 亿参数 + 语义正则化。系统回答了"tokenizer 变大后重建与生成为何此消彼长"——根源在于潜在空间复杂度失控。
MAETok (2025)
MAE 作为 tokenizer 骨干。核心发现:变分约束非必需,有判别性的潜在空间结构才是关键。ImageNet 生成仅用 128 tokens 达到 gFID 1.69,训练快 76 倍。
SoftVQ-VAE (CVPR 2025)
软分类概率替代硬量化,桥接离散和连续的表示学习。
GNN / 超图
图神经网络代表第三范式:将图像建模为图(patch 为节点),提供灵活的非局部关系建模。ViG(NeurIPS 2022)→ MobileViG → GreedyViG → DVHGNN(2025, 83.1%)的演进路线。尚未超越最优 CNN/ViT,但在参数效率和拓扑灵活性上有独特优势。
扩散 Latent Encoders
Stable Diffusion 等用自编码器将图像压缩到低维潜在空间。质量直接决定生成天花板和扩散效率。
Tokenizer 与生成范式的自然匹配
| Tokenizer | 自然生成器 | 关键特性 |
|---|---|---|
| 2D VQGAN | 顺序 AR(Parti、LlamaGen) | 局部 token、因果预测 |
| 2D VQGAN | 并行 MaskGIT | 并行解码,token 不可修正 |
| 1D TiTok | 渐进式 Unmask | 全局 token、进度揭示 |
| 1D MAGVIT-v2 | 纯 AR + LFQ | "LM 超越 Diffusion" |
| 混合 HART | AR(离散)+ Diffusion(连续) | 兼得两者 |
评估协议
| 维度 | 协议 | 指标 | 适用 |
|---|---|---|---|
| 特征质量 | 线性探测 | ImageNet Top-1 | 所有编码器 |
| 语义聚类 | k-NN | k-NN 准确率 | 自监督编码器 |
| 可迁移性 | 微调 | ADE20K mIoU、COCO AP | 所有编码器 |
| 跨模态对齐 | 零样本 | ImageNet Zero-shot | CLIP/SigLIP |
| 重建保真 | Tokenizer 重建 | rFID、PSNR、LPIPS | Tokenizers |
| 生成质量 | 条件生成 | gFID、IS | AR Tokenizers |
Tokenizers 核心指标
- rFID:重建质量。< 1.0 视为高质量。
- gFID:生成质量。< 2.0 良好,< 1.0 最优(MAGVIT-v2 达 0.76)。
- 码本利用率:< 50% 表明码本坍塌。
- 压缩比:TiTok 可达 64:1。
开放问题
- 理解-生成二元性:单一编码器能否同时服务理解和生成?
- 视觉 SSL 的缩放定律:缩放行为(模型大小、数据、计算)尚欠系统刻画。
- 离散 vs 连续:LM 需离散 token,最优生成在连续空间。桥接表示在哪?
- 时空一致性:视频中的时间编码缺乏原则性处理。
- 边缘效率:ViT-g(1.1B)与部署约束冲突。
- Tokenizer 质量瓶颈:tokenizer > generator 已成共识。
- 编码-解码耦合:ProgressiveDiTok 证明渐进式信息传递有效。编码过程本身是否应有时序结构?
- 视觉编码器从监督 CNN 经 Transformer、自监督、多模态对齐发展到专用 tokenizers,每个范式都扩展了视觉表示的能力。
- 自监督学习(DINO/iBOT/DINOv2)已基本弥合与有监督预训练的差距,同时产生涌现特性(语义分割、对象中心注意力)。
- 编码器选择越来越任务依赖:CLIP 用于开放词汇理解,DINO 用于密集预测,MAE ViT 用于微调,专用 tokenizers 用于生成。
- 前沿正收敛于双用途 tokenizers问题——重建保真度、语义质量、离散化的三难困境是核心开放挑战。