多模态大模型(MLLM)
多模态大模型(Multimodal Large Language Model, MLLM)在 LLM 基础上扩展了视觉、听觉等感知能力,让 AI 不再只读文字,而是能"看"图像、"听"声音、"理解"视频。本调研综合了 6 篇 arXiv survey 全文(非仅摘要)和 8 篇核心论文,系统梳理了三段式架构、训练范式、代表模型演进、评测基准体系,以及六大核心挑战。
MLLM 是当前 AI 最活跃的赛道之一。从 2023 年 LLaVA/GPT-4V 元年到 2025 年 Gemini 3 原生全模态,两年内范式快速收敛。掌握三段论架构和六大挑战,就能把握全局脉络。
数据来源:Caffagni et al. (arXiv:2402.12451, ACL 2024) · Yin et al. (arXiv:2306.13549, IEEE TPAMI) · Bai et al. (arXiv:2404.18930, ACM 2025) · Jin et al. (arXiv:2405.10739) · Wu et al. (arXiv:2311.13165) · Li et al. (arXiv:2408.08632)
几乎所有主流 MLLM 遵循 Vision Encoder → Connector → LLM 三段式架构。三段的本质是"感知→翻译→推理"。
阶段 1:视觉编码(Vision Encoder)
ViT 将输入图像切分为 patch,每个 patch 映射为向量。一张 224×224 图像 → 196 个 16×16 patch。当前最佳实践是混合使用 CLIP/SigLIP(语义特征)+ DINOv2(空间特征)。
视觉 Tokenizer 的角色:视觉编码器输出的 continuous feature 需要通过离散分词器(如 Discrete Tokenizers Survey 中的 VQ/RQ/LFQ 方法)映射为固定长度的 token 序列,才能与 LLM 的离散 token 空间对齐。分词器的压缩率和语义保真度直接影响 MLLM 的最终性能上限。
| 编码器 | 预训练数据 | 分辨率 | 参数量 | 优势 |
|---|---|---|---|---|
| CLIP-ViT-L/14 | WIT (13B) | 224/336 | 304M | 语义对齐强,广泛使用 |
| EVA-CLIP-ViT-G/14 | LAION+COYO | 224 | 1.0B | MAE 预训练,重建能力 |
| OpenCLIP-ViT-bigG/14 | LAION-2B (34B) | 224 | 1.8B | 最大开源 CLIP |
| SigLIP-SO | WebLI | 384 | ~400M | Sigmoid 损失,训练稳定 |
| DINOv2 | LVD-142M | 518 | ~1.1B | 自监督,空间特征强 |
💡 关键发现:分辨率 > 参数量
Yin et al. 的经验研究一致验证:VE 分辨率提升带来的性能增益超过单纯增加参数量(7B→13B→70B)。分辨率扩展方法:直接扩展(微调 encoder)、分块法(anyres 切子图)、双编码器(CogAgent 高/低分辨率 cross-attention)。
阶段 2:投影对齐(Connector)
Caffagni et al. 将 Connector 系统分为四大类:
| 类型 | 代表模型 | 机制 | VT 数 | 训练复杂度 |
|---|---|---|---|---|
| Linear/MLP | LLaVA-1.5 | 线性映射或 2 层 MLP | 256 | 极低 |
| Q-Former | BLIP-2 | Learnable queries + cross-attention | 32 | 高 |
| Cross-Attention | Flamingo | Dense XAttn + tanh-gating | 64 | 中-高 |
| Cross-Attention (单层) | Qwen-VL | 单层 XAttn + 2D 位置编码 | 256 | 中 |
🔧 Connector 的"简单有效"哲学
LLaVA-1.5 证明 2 层 MLP 足以匹配 Q-Former 和 Resampler。Caffagni 的 30+ 模型对比表显示,简单 Linear/MLP 方案被采用最多。Flamingo 的 zero-initialized tanh-gating 机制确保初始化时模型行为 = 原始 LLM,训练中逐渐引入视觉信息。数量哲学:太少(<64)丢细节,太多(>1024)计算暴增,主流 256-729。
阶段 3:LLM 推理
对齐后的 visual token 与 text token 拼接送入 LLM。主流 LLM 选择:LLaMA/Vicuna 系列(开源首选)、Qwen(中文最佳)、Mixtral MoE(效率导向)。
| 模型 | VE | Connector | LLM | 参数量 | 特点 |
|---|---|---|---|---|---|
| LLaVA-1.5 | CLIP-ViT-L | 2-MLP | Vicuna-13B | 13.3B | 开源标杆,简单有效 |
| BLIP-2 | EVA-ViT-g | Q-Former | FlanT5-XXL | 14B | Q-Former 先驱 |
| Qwen-VL | CLIP-bigG | Cross-att | Qwen-7B | 8.8B | 中文支持,多语言 |
| InternVL | InternViT-6B | QLLaMA | InternLM-20B | 26B | 6B 超大 VE |
| Flamingo | NFNet-F6 | XAttn+Perceiver | Chinchilla-70B | 70B+ | 少样本先驱 |
| SPHINX-X | Mixture | Linear | Mixtral-8×7B | 47B MoE | 全组件训练 |
基于 Caffagni et al. 全文分析,MLLM 训练分为两阶段训练(主流)和单阶段训练(少数探索)两类。
| 阶段 | 目标 | 冻结策略 | 数据量 |
|---|---|---|---|
| Stage 1:对齐预训练 | Connector 初始化 | 冻结 VE+LLM,训 Connector | 558K–1B |
| Stage 2:指令微调 | 多模态对话能力 | 解冻 LLM(全参或 LoRA) | 150K–665K |
| Stage 3(可选) | 减少幻觉 | RLHF/DPO | 变动 |
Stage 1 大规模数据集
| 数据集 | 规模 | 特点 |
|---|---|---|
| LAION-5B | 5B image-text pairs | 最大公开图文对 |
| COYO-700M | 747M pairs | HTML alt-text 配对 |
| DataComp | 12.8B filtered pairs | Common Crawl 来源 |
| WebLI | 10B images | Google 内部,交错格式 |
| OBELICS | 141M docs, 353M images | 交错图文,开源 |
Stage 2 指令微调数据
| 数据集 | 规模 | 特点 |
|---|---|---|
| LLaVA-Instruct | 158K | GPT-4 生成(58K 对话 + 23K 描述 + 77K 推理) |
| LRV-Instruct | 700K | 含负样本指令,抗幻觉 |
| LLaV AR | 422K + 16K | OCR-rich,text-rich images |
各模型训练策略差异
| 模型 | Stage 1 训练 | Stage 2 训练 | 特殊策略 |
|---|---|---|---|
| LLaVA | 仅训 Linear adapter | Adapter + LLM | GPT-4 生成指令数据 |
| MiniGPT-4 | 仅训 Linear | 仅训 Linear | 模型自过滤数据 |
| InstructBLIP | Q-Former + connection | 同左 | 冻结 VE+LLM |
| mPLUG-Owl | 解冻 VE + Connector | text+multimodal 混合 | VE 可训(有 forgetting 风险) |
| SPHINX-X | 单阶段 all-in-one | 全组件更新,含 text-only data | |
| 维度 | 后期拼接式 | 原生多模态 |
|---|---|---|
| 代表模型 | LLaVA, Qwen-VL, InternVL | Gemini, ERNIE-5.0 |
| 训练流程 | 先训 LLM → 外挂视觉模块 | 所有模态从头联合训练 |
| 开发成本 | 低,复用已有 LLM 权重 | 高,从零训练 |
| 跨模态深度 | 有天花板(信息瓶颈) | 理论上更强 |
| 迭代速度 | 快(换 LLM 只需重训 Connector) | 慢(全模型重训) |
| 开源生态 | 丰富(30+ 开源模型) | 几乎无 |
| 典型上下文 | 4K-131K tokens | 1M+ tokens (Gemini) |
基于 Li et al. (arXiv:2408.08632) 的系统分类:
| 基准 | 评测维度 | 难度 | 典型得分 | 人类水平 |
|---|---|---|---|---|
| MMMU | 大学级多学科 | 困难 | 50-70% | ~90% |
| MMBench | 多模态理解 20+ 维度 | 中等 | 75-85% | ~95% |
| MME | 感知+认知综合 | 中等 | 1800+ | - |
| POPE | 幻觉检测 | 中等 | 85-90% | ~99% |
| MathVista | 数学视觉推理 | 困难 | 50-65% | ~80% |
| CHAIR | 对象幻觉率 | 中等 | 10-30% | ~0% |
| Video-MME | 视频理解 | 中等 | 55-70% | - |
| OCRBench | 文字识别 | 中等 | 70-80% | ~98% |
评测维度五分类:感知(对象识别、OCR)→ 推理(逻辑、数学)→ 认知(常识、专业)→ 生成(描述、对话)→ 安全(幻觉、偏见)。
开源与闭源差距:2023 年 20-30% → 当前 5-10%,部分基准持平。模型选型参考 LMArena(人类盲测)和 OpenCompass(学术基准)。
1. 多模态幻觉
基于 Bai et al. (arXiv:2404.18930) 全文分析。
三类幻觉:对象存在幻觉(识别不存在的对象)· 属性幻觉(颜色/形状/材质描述错误)· 关系幻觉(对象间关系错误)。
四维度根因:
| 维度 | 具体原因 |
|---|---|
| Data | 长尾分布偏差 · 图文配对噪声 · GPT-4 生成指令的 bias |
| Model | VE 分辨率不足 · Connector 信息压缩 · LLM 语言先验过强覆盖视觉信号 |
| Training | 自回归 exposure bias · 对齐不充分 |
| Inference | 生成策略参数 · 缺乏 grounding 机制 |
缓解方案:事前(负样本微调 LRV-Instruct、RLHF/DPO)· 事中(增强 grounding、LURE 特征重采样)· 事后(Woodpecker 外部校验、自我修正)。
当前水平:POPE 85-90% vs 人类 99%;尚无根本解决方案。
2. 高分辨率理解
主流 336-448 分辨率,细粒度 OCR/文档理解不够。方案:anyres 策略(有效分辨率 672-1344)、双编码器(CogAgent)、ViT 直接扩展。分辨率提升对 OCR 增益 > 增加参数量。
Token 压缩与扩散模型的交汇:高分辨率带来 token 数量的指数增长,FastV、MoVA 等 Token 压缩方法与连续扩散语言模型(如 [@连续扩散语言模型路线综述])在信息压缩率设计上面临相似的理论问题——压缩太少则信息冗余,压缩太多则语义失真。
3. 多图与视频理解
token 随帧数线性增长。代表:Gemini 1.5 Pro (1M token 上下文 ≈ 1 小时视频)。趋势:关键帧智能选取 + 视频级时序注意力。
4. Grounding 与视觉定位
让 MLLM 输出边界框/分割掩码。代表:Ferret、Groma(坐标 token 化)、Qwen2.5-VL(原生定位)。瓶颈:像素级精度 + 细粒度标注数据稀缺。
5. Agent 与工具使用
MLLM 三重角色:控制器(编排工具链)、决策者(判断下一步)、语义提炼者(多模态→结构化指令)。代表:OS-Copilot、AppAgent、CogAgent。扩展技术:M-ICL(多模态 few-shot)、M-CoT(分步推理)、LAVR(LLM 编排视觉工具链)。
6. 效率与端侧部署
基于 Jin et al. (arXiv:2405.10739) 全文分析。
LLaVA-1.5 (Vicuna-13B) 推理:336×336 + 40 token → 18.2T FLOPS, 41.6G 内存。MiniGPT-v2 训练需 800+ A100 GPU hours。
| 优化维度 | 代表方案 | 效果 |
|---|---|---|
| 轻量架构 | MobileVLM (2.7B), TinyLLaVA (3B) | 参数量降至 1/5 |
| 高效 VE | SigLIP-SO, ViTamin | 编码器参数减半 |
| 小 LLM | Phi-2 2.7B, Mamba-2.8B (线性复杂度) | 推理 FLOPs 大幅下降 |
| Token 压缩 | FastV, MoVA, LLaVA-PruMerge | VT 数量减少 50-75% |
| MoE | MoE-LLaVA-3.6B, DeepSeek-VL2 | 总参数大但激活量小 |
| PEFT | LoRA, QLoRA | 训练参数降至 0.1% |
💡 MoE 的一致验证
Yin et al. 和 Jin et al. 独立验证:MoE 架构在几乎所有基准上优于同规模 dense 模型。MM1 和 MoE-LLaVA 的实验表明,稀疏激活可以在不增加推理成本的情况下提升总参数量和性能。
| 消融项 | 变化 | 性能影响 | 来源 |
|---|---|---|---|
| 去掉 Connector | 直接拼接视觉特征 | ↓ 30-40% | Caffagni |
| Linear → MLP | 增加非线性 | ↑ 5-8% | Caffagni |
| VT 256 → 64 | 减少 token | ↓ 10-15%(细粒度任务) | Caffagni |
| CLIP → CLIP+DINOv2 | 混合编码器 | ↑ 8-12%(grounding) | Yin |
| LLM 7B → 13B | 增大 LLM | 全面提升 | Yin |
| LLM → 34B | 进一步增大 | 出现 emergent 中文能力 | Yin |
| Dense → MoE | 稀疏激活 | 几乎所有基准更优 | Yin, Jin |
| 项目 | GitHub | 学习价值 |
|---|---|---|
| LLaVA | haotian-liu/LLaVA | ⭐⭐⭐ 学习首选,代码结构清晰 |
| MiniGPT-4 | Vision-CAIR/MiniGPT-4 | ⭐⭐⭐ 源码入门,~500 行核心代码 |
| Qwen2.5-VL | QwenLM/Qwen2.5-VL | ⭐⭐⭐ 中文实用,视频理解+Agent |
| MoE-LLaVA | MOE-LLaVA/MoE-LLaVA | ⭐⭐ MoE 多模态参考实现 |
| MobileVLM | mobilevlm | ⭐⭐ 端侧部署参考 |
🎯 实践路线
第一步:HuggingFace transformers 跑 LLaVA 推理(pip install 即可)
第二步:克隆 MiniGPT-4 读源码(~500 行核心代码)
第三步:LLaVA-Lightning 在自定义数据上微调
第四步:关注 Qwen2.5-VL 视频理解和 Agent 能力
研究切入:视觉 Tokenizer → MLLM visual token 压缩的直接交叉点
| 方向 | 描述 | 预计成熟 |
|---|---|---|
| 原生多模态 | 从零训练的多模态模型,不依赖拼接 | 3-5 年 |
| 多模态 Agent | MLLM + 工具调用 + 环境交互 | 2-3 年 |
| 视频原生理解 | 视频即 token 序列,无需抽帧 | 3-5 年 |
| 统一理解+生成 | 一个模型同时做视觉理解和视觉生成 | 5+ 年 |
| 端侧部署 | 量化 + MoE + 轻量架构 + Token 压缩 | 1-2 年 |
📚 参考资源
核心 Survey(全文精读):Caffagni et al. (arXiv:2402.12451, ACL 2024) · Yin et al. (arXiv:2306.13549, IEEE TPAMI) · Bai et al. (arXiv:2404.18930, ACM 2025) · Jin et al. (arXiv:2405.10739) · Wu et al. (arXiv:2311.13165) · Li et al. (arXiv:2408.08632)
关键论文:CLIP · LLaVA · LLaVA-1.5 · BLIP-2 · Flamingo · Qwen-VL · InternVL · InstructBLIP
评测基准:MMBench (ECCV 2024) · MMMU · MME · POPE · MathVista · CHAIR · SEED-Bench
配图来源:Caffagni et al., "The Revolution of MLLM", Figure 1