ESC
输入关键词搜索文章
目录

Visual Encoders: An Academic Survey

从监督CNN到视觉Tokenizers
五大分类 · 30+篇论文 · 演进路线图
2012起点:AlexNet
30+代表性论文
5核心分类
8论文原图

研究问题与范围

本综述围绕以下核心问题展开:

  • 视觉编码器应该如何分类? 从监督CNN到Transformer、自监督学习、多模态编码器、Latent Tokenizers,清晰的分类揭示设计权衡。
  • 各家族有哪些归纳偏置? 卷积局部性、全局注意力、对比对齐、离散化潜在空间——每个都编码了关于视觉结构的不同假设。
  • 自监督和多模态范式如何重塑视觉理解? 超越标签监督开启了新的缩放定律和迁移能力。
  • 视觉编码与视觉生成的关系是什么? Tokenizers和Latent Encoders桥接理解与生成,引发表示连续性vs离散性的问题。

范围: 时间线从2012(AlexNet)到2025,聚焦自监督和多模态学习的后2020发展。涵盖图像编码器,视频、3D、点云编码器在必要时提及但不系统覆盖。

第一章
监督视觉骨干网络

现代视觉编码时代始于在大规模图像分类(ImageNet ILSVRC)上训练的监督卷积网络。这些架构确立了局部连通性平移等变性的基本归纳偏置,塑造了所有下游视觉编码范式。

AlexNet (2012)

核心论文:"ImageNet Classification with Deep Convolutional Neural Networks" (Krizhevsky, Sutskeher, Hinton, 2012, NeurIPS)

AlexNet证明了一个深CNN(ReLU激活、dropout正则化、GPU加速训练)可以远超传统特征工程流程(SIFT + SVM)。架构使用5个卷积层加3个全连接层,top-5错误率 16.4%,确立了"ImageNet预训练+下游微调"的范式。

VGG (2014)

核心论文:"Very Deep Convolutional Networks for Large-Scale Image Recognition" (Simonyan, Zisserman, 2015, ICLR)

极度简洁的设计原则:只使用3×3卷积滤波器深度堆叠,每次池化后通道数翻倍。VGG-16(138M参数)和VGG-19证明了深度本身是关键因素。

ResNet (2015)

核心论文:"Deep Residual Learning for Image Recognition" (He, Zhang, Ren, Sun, 2016, CVPR)

引入跳跃连接(残差连接),允许梯度通过恒等快捷方式直接流动,使网络学习残差函数 F(x) = H(x) - x。ILSVRC 2015 以 top-5 错误率 3.57% 获胜,超越人类水平。残差连接成为此后几乎所有架构的默认设计。

EfficientNet (2019)

核心论文:"EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks" (Tan, Le, 2019, ICML)

提出复合缩放,根据NAS确定的固定比率联合缩放网络深度、宽度和输入分辨率。EfficientNet-B7 达到 84.3% top-1(66B FLOPs),引入了从 B0 到 B7 的模型家族概念。

ConvNeXt (2022)

核心论文:"A ConvNet for the 2020s" (Liu et al., 2022, CVPR)

纯卷积网络现代化ResNet:融入ViT的设计选择(更大核、深度可分离卷积、倒置瓶颈、LayerNorm、GELU)但不使用注意力。核心信息:训练配方和架构同样重要——用ViT的训练配方训练ResNet,性能差距大幅缩小。

监督骨干网络性能对比

架构年份Top-1参数量核心创新
AlexNet201262.5%60M深度 CNN、ReLU、Dropout
VGG-16201471.5%138M3×3 卷积堆叠、深度优先
ResNet-152201578.3%60M残差连接、瓶颈设计
EfficientNet-B7201984.3%66M复合缩放、NAS
ConvNeXt-B202283.8%89M现代 CNN 训练配方
第二章
基于Transformer的视觉编码器
ViT 模型架构图:图像分块、线性投影、Transformer 编码
图:ViT 将图像分割为 16×16 的 patch,线性嵌入后通过标准 Transformer 编码器处理(来源:Dosovitskiy et al., ICLR 2021)
ViT Patch Embedding 机制
图:ViT 的 Patch Embedding 过程(来源:Dosovitskiy et al., ICLR 2021)

ViT (2020)

核心论文:"An Image is Worth 16x16 Words" (Dosovitskiy et al., 2021, ICLR)

ViT将图像分割成固定大小的patch(通常16×16),线性嵌入每个patch,添加位置嵌入,将结果序列输入标准Transformer编码器。架构完全放弃卷积归纳偏置,将图像识别作为序列分类问题处理。

关键发现:ViT 在 JFT-300M 级别数据预训练时超越 CNN,但在 ImageNet(1.3M)上不如 ResNet。这确定了预训练数据规模的关键作用。其 patch 嵌入范式此后几乎所有视觉 Transformer 都遵循。

局限:全局自注意力 $O(n^2)$ 复杂度使其在高分辨率下计算昂贵,且缺乏空间归纳偏置需要更多数据来学习 CNN "天然拥有"的空间关系。

DeiT (2021)

核心论文:"Training data-efficient image transformers & distillation through attention" (Touvron et al., 2021, ICML)

通过强数据增强、正则化和蒸馏 token 策略,使 ViT 仅在 ImageNet 上就能训练至竞争水平(ViT-S 83.1%,ViT-B 85.2%)。蒸馏 token 让学生学习 CNN 教师的局部特征归纳偏置。

Swin Transformer (2021)

核心论文:"Swin Transformer: Hierarchical Vision Transformer using Shifted Windows" (Liu et al., 2021, ICCV)

分层 Transformer + 移位窗口注意力。在局部窗口(7×7 patch)内计算注意力,层间移位窗口实现跨窗口信息交换。线性复杂度 + 多尺度特征 = 密集预测任务的默认骨干。

PVT / MViT

PVT:"Pyramid Vision Transformer" (Wang et al., 2021, ICCV) — 首个纯 Transformer 金字塔骨干,空间缩减注意力降低早期阶段的计算量。

MViT:"Multiscale Vision Transformers" (Fan et al., 2021, ICCV) — 池化注意力实现多尺度架构,概念上比 Swin 的移位窗口更简洁。

第三章
自监督视觉表示学习
DINOv2 自监督视觉特征概览
图:DINOv2 的自监督视觉特征在大规模预训练后的通用能力,无需微调即可处理分割、深度估计、检索等下游任务(来源:Oquab et al., TMLR 2024)

对比方法

SimCLR (2020):最大化相同图像增强视图间的一致性(NT-Xent 损失)。需要大批量(4096)提供足够负样本。

MoCo (2020):动量更新的负表示队列,将字典大小与批量大小解耦,标准批量(256)即可有效训练。

SwAV (2020):在线聚类替代成对对比,multi-crop 策略提升特征质量。

非对比与自蒸馏方法

BYOL (2020):非对称架构(在线网络 + 目标网络)+ stop-gradient 防止崩溃,无需负样本。

DINO (2021):自蒸馏框架。发现:DINO 训练的 ViT 自发产生语义分割能力——注意力图聚焦前景物体,无需任何分割监督。

iBOT (2021):统一自蒸馏 + 掩码预测。教师网络同时作为 masked patch prediction 的 tokenizer。

DINOv2 (2023):将 DINO+iBOT 扩展到 142M 策划图像(LVD-142M)+ ViT-g(1.1B 参数)。关键发现:数据策划比原始数据量更重要。在密集预测任务上无需微调即可匹配有监督基线。

掩码图像建模(MIM)

MAE (2021):掩码 75% 的 patch,非对称编码器-解码器重建像素值。极高的掩码比例迫使编码器学习全局语义。

BEiT (2021):用 dVAE tokenizer 将 patch 离散化,预测掩码 patch 的离散 token ID。

EVA (2022):预训练 ViT 重建 CLIP 教师的掩码 patch token,CLIP 特征作为语义丰富的重建目标。

第四章
多模态视觉编码器
DINOv2 特征质量分析
图:DINOv2 特征在 ImageNet 线性探测、K-NN 分类和微调上的表现——自监督方法已全面逼近有监督基线(来源:Oquab et al., TMLR 2024)

CLIP (2021)

核心论文:"Learning Transferable Visual Models From Natural Language Supervision" (Radford et al., 2021, ICML)

在 4 亿图文对上训练图像-文本双编码器。最大化匹配对余弦相似度、最小化非匹配对。开辟了零样本分类的新范式。

ALIGN / SigLIP / EVA-CLIP

ALIGN (2021):扩展到 18 亿噪声图文对,证明规模和多样性可补偿标签噪声。

SigLIP (2023):成对 sigmoid 损失替代 softmax,消除大批量同步归一化的需求。

EVA-CLIP (2023):MIM 预训练 EVA + CLIP 对比对齐 = 强空间理解 + 丰富语义。

VLM 中的视觉塔

视觉编码器在 VLM 中承担"感知眼睛"角色。三个核心设计决策:

维度选项代表模型权衡
编码器选择CLIP ViT-L/14LLaVA-1.5、Qwen-VL强语义对齐
编码器选择SigLIP / EVA-CLIPInternVL、Qwen2-VL更大规模
桥接策略线性投影LLaVA简单高效
桥接策略Q-FormerBLIP-2交叉注意力融合
桥接策略Pixel ShuffleInternVL高分辨率适配
训练策略冻结LLaVA保留预训练语义
训练策略部分解冻InternVL后几层适应任务

InternVL 系列:视觉编码器扩展到 6B 参数 + 渐进式解冻策略,在 CCEval 上表明分辨率和规模是关键变量。

第五章
视觉 Tokenizers 与 Latent Encoders
DINOv2 与 CLIP 零样本对比
图:DINOv2 自监督特征 vs CLIP 文本对齐特征在各类别下游任务上的零样本迁移对比(来源:Oquab et al., TMLR 2024)

Tokenizers 三大范式

TiTok 1D Tokenizer 架构
图:TiTok 的 1D Tokenization 架构——ViT 编码器将图像压缩为与分辨率解耦的 32 个 latent tokens(来源:Tian et al., NeurIPS 2024)
家族代表Token 数码本生成范式核心优势
2D 离散VQGAN、dVAE256(16×16)8K-32KAR / MaskGIT结构成熟
1D 离散TiTok、MAGVIT-v232-256(解耦分辨率)262K(LFQ)MaskGIT / AR全局建模
连续-离散混合HART、SoftVQ-VAE128-256连续+离散AR+Diffusion重建保真最高
语义正则化GigaTok、MAETok128-512语义对齐AR理解+生成兼顾

VQ-VAE (2017)

核心论文:"Neural Discrete Representation Learning" (van den Oord et al., 2018, NeurIPS)

向量量化引入 VAE 框架。编码器产生连续潜在向量,映射到学习码本最近条目。离散瓶颈使自回归先验可在量化代码上建模。

VQGAN (2021)

核心论文:"Taming Transformers for High-Resolution Image Synthesis" (Esser et al., 2021, CVPR)

对抗训练 + 感知损失增强 VQ-VAE。GAN 判别器鼓励感知锐利重建,感知损失保持结构相似性。

TiTok (2024) — 1D Tokenization 的奠基

传统 2D tokenizer 的 token 数与图像分辨率绑定(256×256 → 256 tokens)。TiTok 的解法:编码端 ViT 处理 patch 序列 + K 个可学习 latent tokens,最终只保留 latent tokens。256×256 图像压缩为仅 32 个 token。

洞察:TiTok 的码本像"字母表"——单个 token 无明确语义,必须拼成整体;VQGAN 的码本像"词典"——单个 token 有语义但组合受约束。

MAGVIT-v2 (2024)

Lookup-free Quantization (LFQ) + 大码本($2^{18}$ = 262,144 条目)。核心论点:"tokenizer > generator"——更好的 tokenizer 设计比更复杂的生成模型更重要。

HART — 连续-离散混合

离散 token(大局)+ 连续残差 token(细节),仅 37M 参数的残差扩散模块,重建 FID 从 2.11 降至 0.30。离散负责序列建模(AR 友好),连续负责高保真重建。

GigaTok (ICCV 2025)

30 亿参数 + 语义正则化。系统回答了"tokenizer 变大后重建与生成为何此消彼长"——根源在于潜在空间复杂度失控。

MAETok (2025)

MAE 作为 tokenizer 骨干。核心发现:变分约束非必需,有判别性的潜在空间结构才是关键。ImageNet 生成仅用 128 tokens 达到 gFID 1.69,训练快 76 倍。

SoftVQ-VAE (CVPR 2025)

软分类概率替代硬量化,桥接离散和连续的表示学习。

GNN / 超图

图神经网络代表第三范式:将图像建模为图(patch 为节点),提供灵活的非局部关系建模。ViG(NeurIPS 2022)→ MobileViG → GreedyViG → DVHGNN(2025, 83.1%)的演进路线。尚未超越最优 CNN/ViT,但在参数效率和拓扑灵活性上有独特优势。

扩散 Latent Encoders

Stable Diffusion 等用自编码器将图像压缩到低维潜在空间。质量直接决定生成天花板和扩散效率。

Tokenizer 与生成范式的自然匹配

Tokenizer自然生成器关键特性
2D VQGAN顺序 AR(Parti、LlamaGen)局部 token、因果预测
2D VQGAN并行 MaskGIT并行解码,token 不可修正
1D TiTok渐进式 Unmask全局 token、进度揭示
1D MAGVIT-v2纯 AR + LFQ"LM 超越 Diffusion"
混合 HARTAR(离散)+ Diffusion(连续)兼得两者
第六章
评估协议与开放问题
DINOv2 vs CLIP 零样本分类对比
图:DINOv2 自监督特征 vs CLIP 在各类别上的零样本对比——自监督与文本对齐各有胜负(来源:Oquab et al., TMLR 2024)

评估协议

维度协议指标适用
特征质量线性探测ImageNet Top-1所有编码器
语义聚类k-NNk-NN 准确率自监督编码器
可迁移性微调ADE20K mIoU、COCO AP所有编码器
跨模态对齐零样本ImageNet Zero-shotCLIP/SigLIP
重建保真Tokenizer 重建rFID、PSNR、LPIPSTokenizers
生成质量条件生成gFID、ISAR Tokenizers
VTBench(arXiv:2505.13439):首个系统性 Tokenizer 评估基准,四个维度——重建质量、空间结构、细粒度纹理、文本渲染。核心发现:连续 VAE 表示在所有维度上全面优于离散 Tokenizer

Tokenizers 核心指标

  • rFID:重建质量。< 1.0 视为高质量。
  • gFID:生成质量。< 2.0 良好,< 1.0 最优(MAGVIT-v2 达 0.76)。
  • 码本利用率:< 50% 表明码本坍塌。
  • 压缩比:TiTok 可达 64:1。

开放问题

  1. 理解-生成二元性:单一编码器能否同时服务理解和生成?
  2. 视觉 SSL 的缩放定律:缩放行为(模型大小、数据、计算)尚欠系统刻画。
  3. 离散 vs 连续:LM 需离散 token,最优生成在连续空间。桥接表示在哪?
  4. 时空一致性:视频中的时间编码缺乏原则性处理。
  5. 边缘效率:ViT-g(1.1B)与部署约束冲突。
  6. Tokenizer 质量瓶颈:tokenizer > generator 已成共识。
  7. 编码-解码耦合:ProgressiveDiTok 证明渐进式信息传递有效。编码过程本身是否应有时序结构?
结论
关键结论
  • 视觉编码器从监督 CNN 经 Transformer、自监督、多模态对齐发展到专用 tokenizers,每个范式都扩展了视觉表示的能力。
  • 自监督学习(DINO/iBOT/DINOv2)已基本弥合与有监督预训练的差距,同时产生涌现特性(语义分割、对象中心注意力)。
  • 编码器选择越来越任务依赖:CLIP 用于开放词汇理解,DINO 用于密集预测,MAE ViT 用于微调,专用 tokenizers 用于生成。
  • 前沿正收敛于双用途 tokenizers问题——重建保真度、语义质量、离散化的三难困境是核心开放挑战。