Vision Banana: 图像生成器是通用视觉学习器

2026/04/23 00:00:00·2026/05/19 10:23:00

vision generative_model multimodal segmentation depth_estimation

简介

核心主张

Vision Banana 证明图像生成训练类似于 LLM 预训练，可以让模型学习强大且通用的视觉表示。通过对 Nano Banana Pro (NBP) 进行轻量级指令微调（instruction-tuning），在视觉理解任务上达到 SOTA 性能。

方法概述

将视觉任务输出参数化为 RGB 图像，把感知任务重新框架为图像生成问题。例如分割任务中，提示模型 "Segment the skateboard category in pure yellow (<255, 255, 0>)"，然后通过聚类接近该颜色的像素解析 mask。

核心优势

统一性: 所有任务共享同一输出空间（RGB 图像），单一模型处理所有任务

轻量性: 仅需少量视觉任务数据进行指令微调，不添加专用模块

保持生成能力: 输出仍是 RGB 图像，不破坏模型原始生成能力

范式转移

论文提出计算机视觉可能正在经历重大范式转移：生成式视觉预训练可能在构建基础视觉模型中扮演中心角色，同时支持生成和理解。

参考链接

论文链接

arXiv 页面: https://arxiv.org/abs/2604.20329

arXiv PDF: https://arxiv.org/pdf/2604.20329v1.pdf

项目主页: https://vision-banana.github.io

作者及机构

所属机构: Google Research

联系邮箱: vision-banana@google.com

角色	作者
Project Leads (Equal Contribution)	Valentin Gabeur, Shangbang Long, Songyou Peng
Core Contributors	Paul Voigtlaender, Shuyang Sun, Yanan Bao, Karen Truong, Zhicheng Wang, Wenlei Zhou, Jonathan T. Barron, Kyle Genova, Nithish Kannen, Sherry Ben, Yandong Li, Mandy Guo, Suhas Yogin
Project Advisors	Yiming Gu, Huizhong Chen
Leadership Sponsors	Oliver Wang, Saining Xie, Howard Zhou, Kaiming He, Thomas Funkhouser, Jean-Baptiste Alayrac, Radu Soricut

判别式视觉预训练 (Discriminative Visual Pretraining)

当前视觉表示学习的主流方法属于判别式范式，而非生成式建模：

监督学习: 通过标注数据训练分类器，如 AlexNet [Krizhevsky et al., 2012]、ViT [Dosovitskiy et al., 2020]、ViT-22B [Dehghani et al., 2023]

对比学习: 通过拉近正样本、推远负样本学习表示，如 SimCLR [Chen et al., 2020b]、MoCo [He et al., 2020]、CLIP [Radford et al., 2021]、SigLIP [Zhai et al., 2023]、SigLIP 2 [Tschannen et al., 2025]

自举学习 (Bootstrapping): 如 DINO [Caron et al., 2021]、BYOL [Grill et al., 2020]

自编码: 如 MAE [He et al., 2022]、BEiT [Bao et al., 2021]、扩散模型自监督学习 [Chen et al., 2024]

组合方法: 如 DINOv2 [Oquab et al., 2023]、iBOT [Zhou et al., 2021]、DINOv3 [Siméoni et al., 2025]

本文与上述工作的关系: 本文证明生成式预训练可以学习同样强大且更通用的视觉表示，挑战了判别式方法的主导地位。

生成式视觉预训练 (Generative Visual Pretraining)

早期生成式视觉预训练工作探索了从像素进行生成预训练的可能性：

iGPT [Chen et al., 2020a]: 将图像视为序列，采用类似 GPT 的自回归生成预训练

LVM [Bai et al., 2024]: 大规模视觉模型的序列建模，展示了可扩展的学习行为

本文与上述工作的关系: 这些早期工作展示了有前景的扩展行为，但其效果落后于非生成式模型。本文通过轻量级指令微调证明，现代图像生成器已经开发出强大的理解能力，超越了早期尝试。

将生成模型用于视觉理解

已有研究尝试将图像/视频生成器用于视觉理解任务，但存在局限性：

零样本可视化生成（无精确解码）：

Wiedemer et al. [2025]: 观察到视频模型具有零样本学习和推理能力

Zuo et al. [2025]: 对 Nano Banana Pro 在 14 个任务、40 个数据集上进行全面评估，发现生成器可以生成类似分割、深度估计、表面法线估计的 RGB 可视化结果

局限性: 这些方法无法严格遵循提示生成可解码回视觉输出的精确格式，因此无法在现代基准上提供 SOTA 结果

添加专用模块的全量微调方法：

Lotus [He et al., 2024] / Lotus-2 [He et al., 2025]: 基于扩散的视觉基础模型，用于高质量密集预测

Marigold [Ke et al., 2024]: 将扩散图像生成器重新用于单目深度估计

StableNormal [Ye et al., 2024]: 减少扩散方差以实现稳定清晰的法线估计

其他: Yu et al. [2024]（高精度二值图像分割）、Zhao et al. [2025]（Diception，通用扩散模型用于视觉感知任务）、Wang et al. [2026b]（THFM，统一视频基础模型）

本文与上述工作的关系: 这些方法通过添加专用模块并进行全量微调，在特定目标任务上达到 SOTA，但牺牲了模型在其他理解和生成任务上的通用性。本文采用轻量级指令微调，在保持生成能力的同时实现通用视觉理解。

Segment Anything Model (SAM) 系列

SAM 系列是分割领域的专业模型代表：

SAM [Kirillov et al., 2023]: 首个"分割一切"模型，通过大量人工标注掩码数据和专用架构实现

SAM 2 [Ravi et al., 2024]: 扩展至图像和视频分割

SAM 3 [Carion et al., 2025]: 引入概念理解的分割，当前分割领域 SOTA

本文与 SAM 系列的关系: Vision Banana 在 RefCOCOg、ReasonSeg、Cityscapes 三个分割数据集上超越 SAM 3，在 SA-Co/Gold 上与 SAM 3 接近（但 SAM 3 使用了该数据集训练）。本文证明分割能力可以从图像生成器中自然涌现，无需专用架构和大量标注掩码数据。

Depth Anything 系列

深度估计领域的专业模型：

Depth Anything V2 [Yang et al., 2024]: 鲁棒单目深度估计

Depth Anything V3 [Lin et al., 2025]: 从任意视角恢复视觉空间，当前度量深度估计 SOTA

其他专家模型: Depth Pro [Bochkovskii et al., 2024]、UniK3D [Piccinelli et al., 2025a]、MoGe-2 [Wang et al., 2025c]、DepthLM [Cai et al., 2025]

本文与 Depth Anything 系列的关系: Vision Banana 在 NYU、ETH3D、DIODE、KITTI 四个数据集的平均 δ1 上达到 0.929，超越 Depth Anything V3 的 0.918，且无需相机内参。

大语言模型的预训练-微调范式

NLP 领域的范式为本文提供了核心灵感：

生成预训练 (Generative Pretraining): GPT 系列 [Radford et al., 2018, 2019]、LLM 预训练 [Brown et al., 2020]、PaLM [Chowdhery et al., 2023]

指令微调 (Instruction Tuning): InstructGPT [Ouyang et al., 2022]、FLAN [Wei et al., 2021]

本文与 LLM 范式的关系: 本文将视觉生成模型定位为类似 LLM 的"基础模型"，通过轻量级指令微调对齐模型以遵循提示并生成所需格式的视觉输出。这是将 NLP 的预训练-微调范式首次成功迁移到视觉领域的系统性验证。

本文的核心定位

Vision Banana 与现有工作的关键区别在于：

统一性: 单一模型同时处理 2D 理解（分割）、3D 理解（深度/法线）和图像生成/编辑，无需任务专用架构

轻量性: 仅通过低比例混合视觉任务数据进行指令微调，不牺牲原始生成能力

通用性: 输出空间参数化为 RGB 图像，将感知重新框架为图像生成任务，证明图像生成可作为视觉任务的统一通用接口

前置知识

图像生成模型

扩散模型 (Diffusion Models): 通过逐步向数据添加高斯噪声并训练模型逆向去噪来学习数据分布的生成模型。核心流程：前向过程（加噪）和反向过程（去噪）。代表工作：DDPM、Stable Diffusion、DiT (Diffusion Transformer)。

自回归模型 (Autoregressive Models): 将图像表示为离散token序列，按顺序逐个预测下一个token的生成模型。核心思想类似于语言模型的"下一个词预测"。代表工作：VQ-VAE、DALL-E、Parti、LlamaGen。

流匹配 (Flow Matching): 一种训练连续归一化流的方法，直接学习从噪声分布到数据分布的直线路径，避免了扩散模型中复杂的噪声调度设计。代表工作：Rectified Flow、Stable Diffusion 3。

潜在空间生成 (Latent Space Generation): 先在压缩的潜在空间（如VAE编码）中进行生成，再解码为像素空间，大幅降低计算成本。Stable Diffusion 和 Nano Banana 均采用此范式。

指令微调 (Instruction Tuning)

指令微调: 在预训练基础模型之上，使用（指令，输入，输出）格式的任务数据对模型进行轻量级微调，使模型学会遵循人类指令并以特定格式输出。

LLM中的典型流程: 预训练（Pretraining）→ 指令微调（Instruction Tuning）→ RLHF/DPO 对齐。预训练学习通用表示，指令微调激活任务执行能力。

Vision Banana中的应用: 将视觉理解任务（分割、深度估计等）的输出参数化为RGB图像格式，通过指令提示（如"Segment the skateboard category in pure yellow"）引导模型生成可解析的视觉输出。

视觉理解任务

语义分割 (Semantic Segmentation): 为图像中每个像素分配类别标签的2D理解任务，输出与输入同分辨率的类别图。

实例分割 (Instance Segmentation): 在语义分割基础上区分同类别的不同实例，每个实例有独立掩码。

指代分割 (Referring Segmentation): 根据自然语言描述定位并分割特定目标。

深度估计 (Depth Estimation): 从单张图像预测每个像素到相机的距离，分为相对深度和度量深度（metric depth，有绝对尺度）。

表面法线估计 (Surface Normal Estimation): 预测每个像素表面的3D朝向向量，表示局部几何结构。

大语言模型预训练范式

两阶段范式: (1) 无监督预训练在大规模语料上学习通用表示；(2) 指令微调在任务数据上激活下游能力。

涌现能力 (Emergent Capabilities): 模型在足够规模后表现出的超出显式训练目标的能力，如LLM的推理能力、视觉生成模型的零样本理解能力。

Scaling Laws: 模型性能随计算量、数据量、参数量的幂律增长，是支撑大模型预训练有效性的核心理论。

Nano Banana Pro 基础模型

Nano Banana Pro (NBP): Google开发的图像生成基础模型，Vision Banana的基座模型。采用潜在空间生成范式，具备高质量的文本到图像生成和图像编辑能力。

架构信息: 论文未明确披露NBP的具体架构细节（参数量、是否扩散/自回归/流匹配），但属于Google 2025年发布的图像生成模型系列。Vision Banana通过轻量级指令微调保留了其生成能力（GenAI-Bench 53.5%胜率，ImgEdit 47.8%胜率）。

关键特性: 作为生成式基础模型，NBP的预训练权重已内化了丰富的视觉世界知识（结构、语义、关系），使得少量指令微调即可激活强大的视觉理解能力。

阅读前疑问

图像生成和视觉理解之间有什么本质联系？生成能力真的隐含理解能力吗？

来源：论文引言提到 "the ability to create visual content implies an ability to understand it" 是一个长期猜想，但此前证据有限

为什么之前的生成模型没有展现出强大的视觉理解能力？

来源：论文指出早期生成式预训练 "effectiveness has lagged behind non-generative models"，且之前的方法要么输出格式无法解码回定量指标，要么需要添加专用模块并牺牲通用性

指令微调如何 bridge the gap between generation and understanding？

来源：作者类比 LLM 的预训练+指令微调范式，提出通过 instruction-tuning 让生成模型输出"可解码的 RGB 可视化格式"，从而将感知任务重新框架为图像生成

生成式预训练相比判别式/对比式学习，在视觉表征学习上有何独特优势？

来源：论文提到当前 SOTA 视觉表征方法多为监督判别、对比学习、自编码等，生成式预训练尚未成为主流

轻量级指令微调（lightweight instruction-tuning）如何在保留生成能力的同时获得 SOTA 理解性能？

来源：Table 1 显示 Vision Banana 在分割、深度估计等任务上超过 SAM3、Depth Anything 3 等专家模型，同时在 GenAI-Bench 上仍与基模持平

将视觉任务输出参数化为 RGB 图像，这种统一接口的局限性和适用范围是什么？

来源：论文核心策略是 "parameterizing the output space of vision tasks as RGB images"，但未明确讨论哪些任务难以用 RGB 编码

论文声称的"范式转移"（paradigm shift）是否成立？生成式预训练能否真正成为构建基础视觉模型的中心角色？

来源：Abstract 明确提出 "We could be witnessing a major paradigm shift for computer vision"

面临问题及Insights

核心问题

图像生成模型是否具备强大的视觉理解能力？生成式预训练是否可以作为通用视觉学习器？

关键洞察

生成即理解: 能够生成高质量视觉内容的模型，必然内化了视觉世界的结构、语义和关系。论文通过轻量级指令微调激活这些隐藏能力，证明生成预训练本身就是强大的视觉表征学习。

统一接口: 将视觉任务的输出空间参数化为 RGB 图像，可以把所有感知任务重新框架为图像生成问题。这类似于文本生成作为语言理解和推理的统一接口。

轻量激活: 仅需少量视觉任务数据进行指令微调，无需添加专用模块或全量微调，即可在保留生成能力的同时获得 SOTA 理解性能。

与之前工作的区别

方法类型	代表工作	局限性	Vision Banana 的改进
零样本可视化	Zuo et al. [2025]	输出格式不可解码，无法定量评估	设计可解码的 RGB 输出格式
专用模块+全量微调	Lotus, Marigold, Diception	牺牲通用性，仅针对特定任务	轻量指令微调，保持通用性
判别式预训练	CLIP, DINOv2	需要大量标注数据，不直接支持生成	生成预训练天然支持理解和生成

模型和方法

核心思想

将视觉生成模型视为类似 LLM 的"基础模型"，通过轻量级指令微调（instruction-tuning）对齐模型，使其能够按照提示生成特定格式的 RGB 图像输出，这些输出可以被解码为计算机视觉任务的定量结果。

输出参数化为 RGB 图像

论文的关键设计是将所有视觉任务的输出都表示为 RGB 图像：

分割任务: 提示模型用特定纯颜色生成掩码（如 "Segment the skateboard category in pure yellow (<255, 255, 0>)"），然后通过聚类接近该颜色的像素解析 mask

深度估计: 将深度值编码为 RGB 像素值，生成可解码的深度图。深度编码使用 false-color 可视化 + 幂变换（power transform），形成度量深度 (d \in [0, \infty]) 到 RGB 空间 (\text{RGB} \in [0, 1]^3) 的双射映射

表面法线: 将法线向量编码为 RGB 颜色，生成可解码的法线图。法线向量 ((x, y, z) \in [-1, 1]^3) 直接映射到 RGB 通道

这种设计的优势：

统一性: 所有任务共享相同的输出空间（RGB 图像）

可解码性: 通过预定义的颜色编码方案，可以从生成的 RGB 图像中提取定量指标

保留生成能力: 输出仍然是 RGB 图像，不破坏模型的原始生成能力

指令微调方式

训练数据混合: 将原始图像生成数据与少量视觉任务数据混合进行微调

视觉任务数据包括：深度估计、表面法线估计、分割等
数据量相对较小（论文描述为 "small amount"）

训练目标: 让模型学会：

遵循指令提示的格式要求
生成符合特定颜色编码的视觉输出
在视觉理解和生成任务之间平滑切换

模型架构

基座模型: Nano Banana Pro (NBP)

Google 开发的图像生成基础模型
采用潜在空间生成范式
具体架构细节（扩散/自回归/流匹配、参数量）未在论文中披露

微调后的模型: Vision Banana

与 NBP 共享权重
仅通过指令提示区分不同任务
单一统一模型处理所有任务

训练

训练策略

数据混合: 原始图像生成数据 + 额外视觉任务数据

原始数据：NBP 的原始训练数据（文本-图像对、图像编辑数据等）
视觉任务数据：深度估计、表面法线估计、分割等任务的标注数据
混合比例：论文描述为 "mixture"，具体比例未披露

微调方式: 轻量级指令微调

不添加专用模块
不进行全量重训练
在保留原始生成能力的同时，学习输出格式的对齐

训练目标

让模型学会将计算机视觉输出格式化为 RGB 图像：

对于分割：学习用特定颜色填充目标区域
对于深度：学习将深度值映射为 RGB 编码
对于法线：学习将向量映射为 RGB 编码

信息缺口

具体的训练数据量、混合比例、学习率、batch size、训练步数等超参数未在论文中披露
视觉任务数据的具体来源和标注方式未详细说明
训练计算资源（GPU 数量、训练时间）未提及

关键公式

深度估计的评估指标 δ₁（阈值精度）：

$(\delta_1 = \frac{1}{|\mathcal{P}|} \sum_{p \in \mathcal{P}} \mathbb{1}\left[\max\left(\frac{d_p}{\hat{d}_p}, \frac{\hat{d}_p}{d_p}\right) < 1.25\right])$

其中 (d_p) 为真实深度，(\hat{d}_p) 为预测深度，(\mathcal{P}) 为有效像素集合。

绝对相对误差 (AbsRel)：

$(\text{AbsRel} = \frac{1}{|\mathcal{P}|} \sum_{p \in \mathcal{P}} \frac{|d_p - \hat{d}_p|}{d_p})$

实验

评估基准

2D 理解任务：

指代分割 (Referring Segmentation)

RefCOCOg UMD val: 评估指标：cIoU（累积交并比）

ReasonSeg val: 评估指标：gIoU（广义交并比）

语义分割 (Semantic Segmentation)

Cityscapes val: 评估指标：mIoU（平均交并比）

实例分割 (Instance Segmentation)

SA-Co/Gold: 评估指标：pmF1（基于点的宏观 F1 分数）

注：在 500 个随机采样查询上评估以节省计算

3D 理解任务：

度量深度估计 (Metric Depth Estimation)

4 个数据集平均: NYU、ETH3D、DIODE、KITTI

评估指标：δ1（阈值精度，预测深度与真实深度比值在 1.25 以内的像素比例）

表面法线估计 (Surface Normal Estimation)

4 个数据集平均

评估指标：mean angle error（平均角度误差，度）

视觉生成任务：

文本到图像 (Text-to-Image)

GenAI-Bench: 评估指标：win rate（与基模对比的胜率）

图像编辑 (Image Editing)

ImgEdit: 评估指标：win rate（与基模对比的胜率）

对比方法

2D 理解：

SAM 3 [Carion et al., 2025]: 分割领域 SOTA 专家模型

SAM 3 Agent: SAM 3 的 agent 版本

DINO-X [Ren et al., 2024]: 实例分割专家模型

3D 理解：

Depth Anything 3 [Lin et al., 2025]: 度量深度估计 SOTA

Lotus-2 [He et al., 2025]: 表面法线估计 SOTA

视觉生成：

Nano Banana Pro: 基座模型，对比生成能力保留情况

效果

定量结果

任务	数据集	指标	Vision Banana	最佳对比方法	对比结果
指代分割	RefCOCOg UMD val	cIoU ↑	0.738	SAM3 Agent (0.734)	超越
指代分割	ReasonSeg val	gIoU ↑	0.793	SAM3 Agent (0.770)	超越
语义分割	Cityscapes val	mIoU ↑	0.699	SAM3 (0.652)	超越
实例分割	SA-Co/Gold	pmF1 ↑	0.540*	DINO-X (0.552)	接近
度量深度	4 数据集平均	δ1 ↑	0.929	Depth Anything 3 (0.918)	超越
表面法线	4 数据集平均	mean angle ↓	18.928	Lotus-2 (19.642)	超越
文本到图像	GenAI-Bench	win rate ↑	53.5%	NBP (46.5%)	超越
图像编辑	ImgEdit	win rate ↑	47.8%	NBP (52.2%)	接近

*注：SA-Co/Gold 在 500 个随机采样查询上评估

关键发现

2D 理解超越专家模型: Vision Banana 在三个分割数据集上超越 SAM 3，证明分割能力可以从生成预训练中自然涌现

3D 理解超越专家模型: 在度量深度估计上超越 Depth Anything 3，在表面法线估计上超越 Lotus-2，且无需相机内参

生成能力基本保留: 在 GenAI-Bench 上以 53.5% 胜率超越基模，在 ImgEdit 上以 47.8% 接近基模（52.2%），说明轻量级指令微调未显著损害生成能力

统一模型的优势: 所有结果由单一模型、共享权重实现，仅通过指令提示区分任务

结论

主要结论

图像生成预训练是通用视觉学习器: 通过轻量级指令微调，Nano Banana Pro 可以在广泛视觉任务上达到或超越 SOTA 专家模型，证明生成预训练本身就学习了强大的通用视觉表示

图像生成是视觉任务的统一通用接口: 将所有视觉任务输出参数化为 RGB 图像，可以把感知重新框架为生成问题。这类似于文本生成在 NLP 中的统一角色

范式转移的可能: 我们可能正在见证计算机视觉的重大范式转移——生成式视觉预训练可能在构建基础视觉模型中扮演中心角色，同时支持生成和理解

核心贡献

#	贡献	说明
1	生成即理解的系统性验证	首次通过轻量级指令微调，证明现代图像生成器具备 SOTA 视觉理解能力
2	统一视觉接口	提出将视觉任务输出参数化为 RGB 图像，实现生成和理解的统一框架
3	无需牺牲生成能力	证明视觉理解能力可以在不损害原始生成能力的情况下获得
4	超越专家模型	在分割、深度估计、法线估计等任务上超越专用 SOTA 模型

局限性与未来方向

论文未明确讨论 RGB 参数化方案的局限性（哪些任务难以用 RGB 编码）
指令微调的具体数据量和超参数未披露，难以复现
未与最新的多模态大模型（如 GPT-4V、Gemini）进行全面对比

收获

技术启示

生成与理解的统一: 生成能力不是理解的副产品，而是理解的基础。这类似于"教是最好的学"——为了生成逼真的图像，模型必须深入理解视觉世界的物理规律、语义关系和空间结构

轻量级激活的潜力: 大规模预训练模型蕴含的能力远超其显式训练目标。轻量级的格式对齐（如指令微调）可以激活这些隐藏能力，而无需昂贵的全量重训练

输出空间设计的艺术: 将任务输出重新参数化为模型原生支持的格式（如 RGB 图像），是一种优雅的桥接策略。这种"用生成解决感知"的思路可以启发其他领域的设计

对视觉模型发展的思考

判别式 vs 生成式: 当前视觉领域以判别式预训练（CLIP、DINO）为主导，但本文表明生成式预训练可能具备更优的通用性和可扩展性。未来可能出现类似 NLP 中 GPT 的"生成式基础模型"主导格局

统一模型的趋势: 从专用模型（SAM、Depth Anything）向统一模型（Vision Banana）的转变，符合 AI 领域从"多个专家"到"一个通用ist"的发展规律

Scaling 的方向: 如果生成式预训练确实遵循类似 LLM 的 scaling laws，那么加大生成模型的规模和数据量，可能同时提升生成质量和理解能力，实现"一箭双雕"

实践价值与应用方向

降低视觉任务开发成本: 无需为每个任务训练专用模型，一个统一模型通过提示即可处理多种任务

生成-理解闭环: 统一模型可以同时用于内容生成和内容理解，在自动驾驶、机器人、AR/VR 等需要同时感知和生成的场景中具有天然优势

数据效率: 视觉理解任务只需少量标注数据进行指令微调，大部分知识来自生成预训练阶段的无监督学习

可解释性: 通过观察模型生成的 RGB 可视化输出，可以直观理解模型的"思考过程"