多模态大模型（MLLM）——原理、综述与实践

2026/05/14 00:00:00·2026/05/19 10:15:00

简介

多模态大模型（Multimodal Large Language Model, MLLM）在 LLM 基础上扩展了视觉、听觉等感知能力，让 AI 不再只读文字，而是能"看"图像、"听"声音、"理解"视频。本调研综合了 6 篇 arXiv survey 全文（非仅摘要）和 8 篇核心论文，系统梳理了三段式架构、训练范式、代表模型演进、评测基准体系，以及六大核心挑战。

MLLM 是当前 AI 最活跃的赛道之一。从 2023 年 LLaVA/GPT-4V 元年到 2025 年 Gemini 3 原生全模态，两年内范式快速收敛。掌握三段论架构和六大挑战，就能把握全局脉络。

数据来源：Caffagni et al. (arXiv:2402.12451, ACL 2024) · Yin et al. (arXiv:2306.13549, IEEE TPAMI) · Bai et al. (arXiv:2404.18930, ACM 2025) · Jin et al. (arXiv:2405.10739) · Wu et al. (arXiv:2311.13165) · Li et al. (arXiv:2408.08632)

核心架构：编码-对齐-推理三阶段

几乎所有主流 MLLM 遵循 Vision Encoder → Connector → LLM 三段式架构。三段的本质是"感知→翻译→推理"。

MLLM 通用架构：Visual Encoder + Adapter + LLM。不同 Adapter 类型：MLP、Q-Former、Cross-Attention。来源：Caffagni et al., Figure 1

阶段 1：视觉编码（Vision Encoder）

ViT 将输入图像切分为 patch，每个 patch 映射为向量。一张 224×224 图像 → 196 个 16×16 patch。当前最佳实践是混合使用 CLIP/SigLIP（语义特征）+ DINOv2（空间特征）。

视觉 Tokenizer 的角色：视觉编码器输出的 continuous feature 需要通过离散分词器（如 Discrete Tokenizers Survey 中的 VQ/RQ/LFQ 方法）映射为固定长度的 token 序列，才能与 LLM 的离散 token 空间对齐。分词器的压缩率和语义保真度直接影响 MLLM 的最终性能上限。

编码器	预训练数据	分辨率	参数量	优势
CLIP-ViT-L/14	WIT (13B)	224/336	304M	语义对齐强，广泛使用
EVA-CLIP-ViT-G/14	LAION+COYO	224	1.0B	MAE 预训练，重建能力
OpenCLIP-ViT-bigG/14	LAION-2B (34B)	224	1.8B	最大开源 CLIP
SigLIP-SO	WebLI	384	~400M	Sigmoid 损失，训练稳定
DINOv2	LVD-142M	518	~1.1B	自监督，空间特征强

💡 关键发现：分辨率 > 参数量

Yin et al. 的经验研究一致验证：VE 分辨率提升带来的性能增益超过单纯增加参数量（7B→13B→70B）。分辨率扩展方法：直接扩展（微调 encoder）、分块法（anyres 切子图）、双编码器（CogAgent 高/低分辨率 cross-attention）。

阶段 2：投影对齐（Connector）

Caffagni et al. 将 Connector 系统分为四大类：

类型	代表模型	机制	VT 数	训练复杂度
Linear/MLP	LLaVA-1.5	线性映射或 2 层 MLP	256	极低
Q-Former	BLIP-2	Learnable queries + cross-attention	32	高
Cross-Attention	Flamingo	Dense XAttn + tanh-gating	64	中-高
Cross-Attention (单层)	Qwen-VL	单层 XAttn + 2D 位置编码	256	中

🔧 Connector 的"简单有效"哲学

LLaVA-1.5 证明 2 层 MLP 足以匹配 Q-Former 和 Resampler。Caffagni 的 30+ 模型对比表显示，简单 Linear/MLP 方案被采用最多。Flamingo 的 zero-initialized tanh-gating 机制确保初始化时模型行为 = 原始 LLM，训练中逐渐引入视觉信息。数量哲学：太少(<64)丢细节，太多(>1024)计算暴增，主流 256-729。

阶段 3：LLM 推理

对齐后的 visual token 与 text token 拼接送入 LLM。主流 LLM 选择：LLaMA/Vicuna 系列（开源首选）、Qwen（中文最佳）、Mixtral MoE（效率导向）。

模型	VE	Connector	LLM	参数量	特点
LLaVA-1.5	CLIP-ViT-L	2-MLP	Vicuna-13B	13.3B	开源标杆，简单有效
BLIP-2	EVA-ViT-g	Q-Former	FlanT5-XXL	14B	Q-Former 先驱
Qwen-VL	CLIP-bigG	Cross-att	Qwen-7B	8.8B	中文支持，多语言
InternVL	InternViT-6B	QLLaMA	InternLM-20B	26B	6B 超大 VE
Flamingo	NFNet-F6	XAttn+Perceiver	Chinchilla-70B	70B+	少样本先驱
SPHINX-X	Mixture	Linear	Mixtral-8×7B	47B MoE	全组件训练

训练流程

基于 Caffagni et al. 全文分析，MLLM 训练分为两阶段训练（主流）和单阶段训练（少数探索）两类。

阶段	目标	冻结策略	数据量
Stage 1：对齐预训练	Connector 初始化	冻结 VE+LLM，训 Connector	558K–1B
Stage 2：指令微调	多模态对话能力	解冻 LLM（全参或 LoRA）	150K–665K
Stage 3（可选）	减少幻觉	RLHF/DPO	变动

Stage 1 大规模数据集

数据集	规模	特点
LAION-5B	5B image-text pairs	最大公开图文对
COYO-700M	747M pairs	HTML alt-text 配对
DataComp	12.8B filtered pairs	Common Crawl 来源
WebLI	10B images	Google 内部，交错格式
OBELICS	141M docs, 353M images	交错图文，开源

Stage 2 指令微调数据

数据集	规模	特点
LLaVA-Instruct	158K	GPT-4 生成（58K 对话 + 23K 描述 + 77K 推理）
LRV-Instruct	700K	含负样本指令，抗幻觉
LLaV AR	422K + 16K	OCR-rich，text-rich images

各模型训练策略差异

模型	Stage 1 训练	Stage 2 训练	特殊策略
LLaVA	仅训 Linear adapter	Adapter + LLM	GPT-4 生成指令数据
MiniGPT-4	仅训 Linear	仅训 Linear	模型自过滤数据
InstructBLIP	Q-Former + connection	同左	冻结 VE+LLM
mPLUG-Owl	解冻 VE + Connector	text+multimodal 混合	VE 可训（有 forgetting 风险）
SPHINX-X	单阶段 all-in-one		全组件更新，含 text-only data

架构范式：后期拼接 vs 原生多模态

维度	后期拼接式	原生多模态
代表模型	LLaVA, Qwen-VL, InternVL	Gemini, ERNIE-5.0
训练流程	先训 LLM → 外挂视觉模块	所有模态从头联合训练
开发成本	低，复用已有 LLM 权重	高，从零训练
跨模态深度	有天花板（信息瓶颈）	理论上更强
迭代速度	快（换 LLM 只需重训 Connector）	慢（全模型重训）
开源生态	丰富（30+ 开源模型）	几乎无
典型上下文	4K-131K tokens	1M+ tokens (Gemini)

评测基准

基于 Li et al. (arXiv:2408.08632) 的系统分类：

基准	评测维度	难度	典型得分	人类水平
MMMU	大学级多学科	困难	50-70%	~90%
MMBench	多模态理解 20+ 维度	中等	75-85%	~95%
MME	感知+认知综合	中等	1800+	-
POPE	幻觉检测	中等	85-90%	~99%
MathVista	数学视觉推理	困难	50-65%	~80%
CHAIR	对象幻觉率	中等	10-30%	~0%
Video-MME	视频理解	中等	55-70%	-
OCRBench	文字识别	中等	70-80%	~98%

评测维度五分类：感知（对象识别、OCR）→ 推理（逻辑、数学）→ 认知（常识、专业）→ 生成（描述、对话）→ 安全（幻觉、偏见）。

开源与闭源差距：2023 年 20-30% → 当前 5-10%，部分基准持平。模型选型参考 LMArena（人类盲测）和 OpenCompass（学术基准）。

六大核心挑战

1. 多模态幻觉

基于 Bai et al. (arXiv:2404.18930) 全文分析。

三类幻觉：对象存在幻觉（识别不存在的对象）· 属性幻觉（颜色/形状/材质描述错误）· 关系幻觉（对象间关系错误）。

四维度根因：

维度	具体原因
Data	长尾分布偏差 · 图文配对噪声 · GPT-4 生成指令的 bias
Model	VE 分辨率不足 · Connector 信息压缩 · LLM 语言先验过强覆盖视觉信号
Training	自回归 exposure bias · 对齐不充分
Inference	生成策略参数 · 缺乏 grounding 机制

缓解方案：事前（负样本微调 LRV-Instruct、RLHF/DPO）· 事中（增强 grounding、LURE 特征重采样）· 事后（Woodpecker 外部校验、自我修正）。

当前水平：POPE 85-90% vs 人类 99%；尚无根本解决方案。

2. 高分辨率理解

主流 336-448 分辨率，细粒度 OCR/文档理解不够。方案：anyres 策略（有效分辨率 672-1344）、双编码器（CogAgent）、ViT 直接扩展。分辨率提升对 OCR 增益 > 增加参数量。

Token 压缩与扩散模型的交汇：高分辨率带来 token 数量的指数增长，FastV、MoVA 等 Token 压缩方法与连续扩散语言模型（如 [@连续扩散语言模型路线综述]）在信息压缩率设计上面临相似的理论问题——压缩太少则信息冗余，压缩太多则语义失真。

3. 多图与视频理解

token 随帧数线性增长。代表：Gemini 1.5 Pro (1M token 上下文 ≈ 1 小时视频)。趋势：关键帧智能选取 + 视频级时序注意力。

4. Grounding 与视觉定位

让 MLLM 输出边界框/分割掩码。代表：Ferret、Groma（坐标 token 化）、Qwen2.5-VL（原生定位）。瓶颈：像素级精度 + 细粒度标注数据稀缺。

5. Agent 与工具使用

MLLM 三重角色：控制器（编排工具链）、决策者（判断下一步）、语义提炼者（多模态→结构化指令）。代表：OS-Copilot、AppAgent、CogAgent。扩展技术：M-ICL（多模态 few-shot）、M-CoT（分步推理）、LAVR（LLM 编排视觉工具链）。

6. 效率与端侧部署

基于 Jin et al. (arXiv:2405.10739) 全文分析。

LLaVA-1.5 (Vicuna-13B) 推理：336×336 + 40 token → 18.2T FLOPS, 41.6G 内存。MiniGPT-v2 训练需 800+ A100 GPU hours。

优化维度	代表方案	效果
轻量架构	MobileVLM (2.7B), TinyLLaVA (3B)	参数量降至 1/5
高效 VE	SigLIP-SO, ViTamin	编码器参数减半
小 LLM	Phi-2 2.7B, Mamba-2.8B (线性复杂度)	推理 FLOPs 大幅下降
Token 压缩	FastV, MoVA, LLaVA-PruMerge	VT 数量减少 50-75%
MoE	MoE-LLaVA-3.6B, DeepSeek-VL2	总参数大但激活量小
PEFT	LoRA, QLoRA	训练参数降至 0.1%

💡 MoE 的一致验证

Yin et al. 和 Jin et al. 独立验证：MoE 架构在几乎所有基准上优于同规模 dense 模型。MM1 和 MoE-LLaVA 的实验表明，稀疏激活可以在不增加推理成本的情况下提升总参数量和性能。

消融实验关键发现

消融项	变化	性能影响	来源
去掉 Connector	直接拼接视觉特征	↓ 30-40%	Caffagni
Linear → MLP	增加非线性	↑ 5-8%	Caffagni
VT 256 → 64	减少 token	↓ 10-15%（细粒度任务）	Caffagni
CLIP → CLIP+DINOv2	混合编码器	↑ 8-12%（grounding）	Yin
LLM 7B → 13B	增大 LLM	全面提升	Yin
LLM → 34B	进一步增大	出现 emergent 中文能力	Yin
Dense → MoE	稀疏激活	几乎所有基准更优	Yin, Jin

开源项目推荐

项目	GitHub	学习价值
LLaVA	haotian-liu/LLaVA	⭐⭐⭐ 学习首选，代码结构清晰
MiniGPT-4	Vision-CAIR/MiniGPT-4	⭐⭐⭐ 源码入门，~500 行核心代码
Qwen2.5-VL	QwenLM/Qwen2.5-VL	⭐⭐⭐ 中文实用，视频理解+Agent
MoE-LLaVA	MOE-LLaVA/MoE-LLaVA	⭐⭐ MoE 多模态参考实现
MobileVLM	mobilevlm	⭐⭐ 端侧部署参考

🎯 实践路线

第一步：HuggingFace transformers 跑 LLaVA 推理（pip install 即可）
第二步：克隆 MiniGPT-4 读源码（~500 行核心代码）
第三步：LLaVA-Lightning 在自定义数据上微调
第四步：关注 Qwen2.5-VL 视频理解和 Agent 能力
研究切入：视觉 Tokenizer → MLLM visual token 压缩的直接交叉点

未来趋势

方向	描述	预计成熟
原生多模态	从零训练的多模态模型，不依赖拼接	3-5 年
多模态 Agent	MLLM + 工具调用 + 环境交互	2-3 年
视频原生理解	视频即 token 序列，无需抽帧	3-5 年
统一理解+生成	一个模型同时做视觉理解和视觉生成	5+ 年
端侧部署	量化 + MoE + 轻量架构 + Token 压缩	1-2 年

📚 参考资源

核心 Survey（全文精读）：Caffagni et al. (arXiv:2402.12451, ACL 2024) · Yin et al. (arXiv:2306.13549, IEEE TPAMI) · Bai et al. (arXiv:2404.18930, ACM 2025) · Jin et al. (arXiv:2405.10739) · Wu et al. (arXiv:2311.13165) · Li et al. (arXiv:2408.08632)

关键论文：CLIP · LLaVA · LLaVA-1.5 · BLIP-2 · Flamingo · Qwen-VL · InternVL · InstructBLIP

评测基准：MMBench (ECCV 2024) · MMMU · MME · POPE · MathVista · CHAIR · SEED-Bench

配图来源：Caffagni et al., "The Revolution of MLLM", Figure 1