ESC
输入关键词搜索文章
目录

多模态大模型(MLLM)

原理、综述与实践 · 基于 6 篇 Survey 全文深度分析
Vision Encoder → Connector → LLM —— 三个组件,一个范式的诞生。从 30+ 模型中提炼架构共识。
6Survey 全文精读
3 段标准架构
30+模型架构对比
6核心挑战
简介

多模态大模型(Multimodal Large Language Model, MLLM)在 LLM 基础上扩展了视觉、听觉等感知能力,让 AI 不再只读文字,而是能"看"图像、"听"声音、"理解"视频。本调研综合了 6 篇 arXiv survey 全文(非仅摘要)和 8 篇核心论文,系统梳理了三段式架构、训练范式、代表模型演进、评测基准体系,以及六大核心挑战。

MLLM 是当前 AI 最活跃的赛道之一。从 2023 年 LLaVA/GPT-4V 元年到 2025 年 Gemini 3 原生全模态,两年内范式快速收敛。掌握三段论架构和六大挑战,就能把握全局脉络。

数据来源:Caffagni et al. (arXiv:2402.12451, ACL 2024) · Yin et al. (arXiv:2306.13549, IEEE TPAMI) · Bai et al. (arXiv:2404.18930, ACM 2025) · Jin et al. (arXiv:2405.10739) · Wu et al. (arXiv:2311.13165) · Li et al. (arXiv:2408.08632)

核心架构:编码-对齐-推理三阶段

几乎所有主流 MLLM 遵循 Vision Encoder → Connector → LLM 三段式架构。三段的本质是"感知→翻译→推理"。

MLLM 通用架构图
MLLM 通用架构:Visual Encoder + Adapter + LLM。不同 Adapter 类型:MLP、Q-Former、Cross-Attention。来源:Caffagni et al., Figure 1

阶段 1:视觉编码(Vision Encoder)

ViT 将输入图像切分为 patch,每个 patch 映射为向量。一张 224×224 图像 → 196 个 16×16 patch。当前最佳实践是混合使用 CLIP/SigLIP(语义特征)+ DINOv2(空间特征)。

视觉 Tokenizer 的角色:视觉编码器输出的 continuous feature 需要通过离散分词器(如 Discrete Tokenizers Survey 中的 VQ/RQ/LFQ 方法)映射为固定长度的 token 序列,才能与 LLM 的离散 token 空间对齐。分词器的压缩率和语义保真度直接影响 MLLM 的最终性能上限。

编码器预训练数据分辨率参数量优势
CLIP-ViT-L/14WIT (13B)224/336304M语义对齐强,广泛使用
EVA-CLIP-ViT-G/14LAION+COYO2241.0BMAE 预训练,重建能力
OpenCLIP-ViT-bigG/14LAION-2B (34B)2241.8B最大开源 CLIP
SigLIP-SOWebLI384~400MSigmoid 损失,训练稳定
DINOv2LVD-142M518~1.1B自监督,空间特征强

💡 关键发现:分辨率 > 参数量

Yin et al. 的经验研究一致验证:VE 分辨率提升带来的性能增益超过单纯增加参数量(7B→13B→70B)。分辨率扩展方法:直接扩展(微调 encoder)、分块法(anyres 切子图)、双编码器(CogAgent 高/低分辨率 cross-attention)。

阶段 2:投影对齐(Connector)

Caffagni et al. 将 Connector 系统分为四大类:

类型代表模型机制VT 数训练复杂度
Linear/MLPLLaVA-1.5线性映射或 2 层 MLP256极低
Q-FormerBLIP-2Learnable queries + cross-attention32
Cross-AttentionFlamingoDense XAttn + tanh-gating64中-高
Cross-Attention (单层)Qwen-VL单层 XAttn + 2D 位置编码256

🔧 Connector 的"简单有效"哲学

LLaVA-1.5 证明 2 层 MLP 足以匹配 Q-Former 和 Resampler。Caffagni 的 30+ 模型对比表显示,简单 Linear/MLP 方案被采用最多。Flamingo 的 zero-initialized tanh-gating 机制确保初始化时模型行为 = 原始 LLM,训练中逐渐引入视觉信息。数量哲学:太少(<64)丢细节,太多(>1024)计算暴增,主流 256-729。

阶段 3:LLM 推理

对齐后的 visual token 与 text token 拼接送入 LLM。主流 LLM 选择:LLaMA/Vicuna 系列(开源首选)、Qwen(中文最佳)、Mixtral MoE(效率导向)。

模型VEConnectorLLM参数量特点
LLaVA-1.5CLIP-ViT-L2-MLPVicuna-13B13.3B开源标杆,简单有效
BLIP-2EVA-ViT-gQ-FormerFlanT5-XXL14BQ-Former 先驱
Qwen-VLCLIP-bigGCross-attQwen-7B8.8B中文支持,多语言
InternVLInternViT-6BQLLaMAInternLM-20B26B6B 超大 VE
FlamingoNFNet-F6XAttn+PerceiverChinchilla-70B70B+少样本先驱
SPHINX-XMixtureLinearMixtral-8×7B47B MoE全组件训练
训练流程

基于 Caffagni et al. 全文分析,MLLM 训练分为两阶段训练(主流)和单阶段训练(少数探索)两类。

阶段目标冻结策略数据量
Stage 1:对齐预训练Connector 初始化冻结 VE+LLM,训 Connector558K–1B
Stage 2:指令微调多模态对话能力解冻 LLM(全参或 LoRA)150K–665K
Stage 3(可选)减少幻觉RLHF/DPO变动

Stage 1 大规模数据集

数据集规模特点
LAION-5B5B image-text pairs最大公开图文对
COYO-700M747M pairsHTML alt-text 配对
DataComp12.8B filtered pairsCommon Crawl 来源
WebLI10B imagesGoogle 内部,交错格式
OBELICS141M docs, 353M images交错图文,开源

Stage 2 指令微调数据

数据集规模特点
LLaVA-Instruct158KGPT-4 生成(58K 对话 + 23K 描述 + 77K 推理)
LRV-Instruct700K含负样本指令,抗幻觉
LLaV AR422K + 16KOCR-rich,text-rich images

各模型训练策略差异

模型Stage 1 训练Stage 2 训练特殊策略
LLaVA仅训 Linear adapterAdapter + LLMGPT-4 生成指令数据
MiniGPT-4仅训 Linear仅训 Linear模型自过滤数据
InstructBLIPQ-Former + connection同左冻结 VE+LLM
mPLUG-Owl解冻 VE + Connectortext+multimodal 混合VE 可训(有 forgetting 风险)
SPHINX-X单阶段 all-in-one全组件更新,含 text-only data
架构范式:后期拼接 vs 原生多模态
维度后期拼接式原生多模态
代表模型LLaVA, Qwen-VL, InternVLGemini, ERNIE-5.0
训练流程先训 LLM → 外挂视觉模块所有模态从头联合训练
开发成本低,复用已有 LLM 权重高,从零训练
跨模态深度有天花板(信息瓶颈)理论上更强
迭代速度快(换 LLM 只需重训 Connector)慢(全模型重训)
开源生态丰富(30+ 开源模型)几乎无
典型上下文4K-131K tokens1M+ tokens (Gemini)
评测基准

基于 Li et al. (arXiv:2408.08632) 的系统分类:

基准评测维度难度典型得分人类水平
MMMU大学级多学科困难50-70%~90%
MMBench多模态理解 20+ 维度中等75-85%~95%
MME感知+认知综合中等1800+-
POPE幻觉检测中等85-90%~99%
MathVista数学视觉推理困难50-65%~80%
CHAIR对象幻觉率中等10-30%~0%
Video-MME视频理解中等55-70%-
OCRBench文字识别中等70-80%~98%

评测维度五分类:感知(对象识别、OCR)→ 推理(逻辑、数学)→ 认知(常识、专业)→ 生成(描述、对话)→ 安全(幻觉、偏见)。

开源与闭源差距:2023 年 20-30% → 当前 5-10%,部分基准持平。模型选型参考 LMArena(人类盲测)和 OpenCompass(学术基准)。

六大核心挑战

1. 多模态幻觉

基于 Bai et al. (arXiv:2404.18930) 全文分析。

三类幻觉:对象存在幻觉(识别不存在的对象)· 属性幻觉(颜色/形状/材质描述错误)· 关系幻觉(对象间关系错误)。

四维度根因

维度具体原因
Data长尾分布偏差 · 图文配对噪声 · GPT-4 生成指令的 bias
ModelVE 分辨率不足 · Connector 信息压缩 · LLM 语言先验过强覆盖视觉信号
Training自回归 exposure bias · 对齐不充分
Inference生成策略参数 · 缺乏 grounding 机制

缓解方案:事前(负样本微调 LRV-Instruct、RLHF/DPO)· 事中(增强 grounding、LURE 特征重采样)· 事后(Woodpecker 外部校验、自我修正)。

当前水平:POPE 85-90% vs 人类 99%;尚无根本解决方案。

2. 高分辨率理解

主流 336-448 分辨率,细粒度 OCR/文档理解不够。方案:anyres 策略(有效分辨率 672-1344)、双编码器(CogAgent)、ViT 直接扩展。分辨率提升对 OCR 增益 > 增加参数量。

Token 压缩与扩散模型的交汇:高分辨率带来 token 数量的指数增长,FastV、MoVA 等 Token 压缩方法与连续扩散语言模型(如 [@连续扩散语言模型路线综述])在信息压缩率设计上面临相似的理论问题——压缩太少则信息冗余,压缩太多则语义失真。

3. 多图与视频理解

token 随帧数线性增长。代表:Gemini 1.5 Pro (1M token 上下文 ≈ 1 小时视频)。趋势:关键帧智能选取 + 视频级时序注意力。

4. Grounding 与视觉定位

让 MLLM 输出边界框/分割掩码。代表:Ferret、Groma(坐标 token 化)、Qwen2.5-VL(原生定位)。瓶颈:像素级精度 + 细粒度标注数据稀缺。

5. Agent 与工具使用

MLLM 三重角色:控制器(编排工具链)、决策者(判断下一步)、语义提炼者(多模态→结构化指令)。代表:OS-Copilot、AppAgent、CogAgent。扩展技术:M-ICL(多模态 few-shot)、M-CoT(分步推理)、LAVR(LLM 编排视觉工具链)。

6. 效率与端侧部署

基于 Jin et al. (arXiv:2405.10739) 全文分析。

LLaVA-1.5 (Vicuna-13B) 推理:336×336 + 40 token → 18.2T FLOPS, 41.6G 内存。MiniGPT-v2 训练需 800+ A100 GPU hours。

优化维度代表方案效果
轻量架构MobileVLM (2.7B), TinyLLaVA (3B)参数量降至 1/5
高效 VESigLIP-SO, ViTamin编码器参数减半
小 LLMPhi-2 2.7B, Mamba-2.8B (线性复杂度)推理 FLOPs 大幅下降
Token 压缩FastV, MoVA, LLaVA-PruMergeVT 数量减少 50-75%
MoEMoE-LLaVA-3.6B, DeepSeek-VL2总参数大但激活量小
PEFTLoRA, QLoRA训练参数降至 0.1%

💡 MoE 的一致验证

Yin et al. 和 Jin et al. 独立验证:MoE 架构在几乎所有基准上优于同规模 dense 模型。MM1 和 MoE-LLaVA 的实验表明,稀疏激活可以在不增加推理成本的情况下提升总参数量和性能。

消融实验关键发现
消融项变化性能影响来源
去掉 Connector直接拼接视觉特征↓ 30-40%Caffagni
Linear → MLP增加非线性↑ 5-8%Caffagni
VT 256 → 64减少 token↓ 10-15%(细粒度任务)Caffagni
CLIP → CLIP+DINOv2混合编码器↑ 8-12%(grounding)Yin
LLM 7B → 13B增大 LLM全面提升Yin
LLM → 34B进一步增大出现 emergent 中文能力Yin
Dense → MoE稀疏激活几乎所有基准更优Yin, Jin
开源项目推荐
项目GitHub学习价值
LLaVAhaotian-liu/LLaVA⭐⭐⭐ 学习首选,代码结构清晰
MiniGPT-4Vision-CAIR/MiniGPT-4⭐⭐⭐ 源码入门,~500 行核心代码
Qwen2.5-VLQwenLM/Qwen2.5-VL⭐⭐⭐ 中文实用,视频理解+Agent
MoE-LLaVAMOE-LLaVA/MoE-LLaVA⭐⭐ MoE 多模态参考实现
MobileVLMmobilevlm⭐⭐ 端侧部署参考

🎯 实践路线

第一步:HuggingFace transformers 跑 LLaVA 推理(pip install 即可)
第二步:克隆 MiniGPT-4 读源码(~500 行核心代码)
第三步:LLaVA-Lightning 在自定义数据上微调
第四步:关注 Qwen2.5-VL 视频理解和 Agent 能力
研究切入:视觉 Tokenizer → MLLM visual token 压缩的直接交叉点

未来趋势
方向描述预计成熟
原生多模态从零训练的多模态模型,不依赖拼接3-5 年
多模态 AgentMLLM + 工具调用 + 环境交互2-3 年
视频原生理解视频即 token 序列,无需抽帧3-5 年
统一理解+生成一个模型同时做视觉理解和视觉生成5+ 年
端侧部署量化 + MoE + 轻量架构 + Token 压缩1-2 年

📚 参考资源

核心 Survey(全文精读):Caffagni et al. (arXiv:2402.12451, ACL 2024) · Yin et al. (arXiv:2306.13549, IEEE TPAMI) · Bai et al. (arXiv:2404.18930, ACM 2025) · Jin et al. (arXiv:2405.10739) · Wu et al. (arXiv:2311.13165) · Li et al. (arXiv:2408.08632)

关键论文:CLIP · LLaVA · LLaVA-1.5 · BLIP-2 · Flamingo · Qwen-VL · InternVL · InstructBLIP

评测基准:MMBench (ECCV 2024) · MMMU · MME · POPE · MathVista · CHAIR · SEED-Bench

配图来源:Caffagni et al., "The Revolution of MLLM", Figure 1