LAM 深度解读：给多模态 Transformer 装一个会学习的注意力阀门

2026/06/04 10:18:46

Part 1

为什么多模态场景里的 attention 不该一视同仁

Transformer 的 self-attention 有一个很强的默认前提：只要给定一串 token，模型就可以通过两两相似度，把重要关系自己算出来。这个前提在纯文本里已经足够强，但一旦进入视频、音频、文本混合的场景，问题会变得微妙得多。

《Multi-layer Learnable Attention Mask for Multimodal Tasks》关注的正是这个缝隙。作者 Wayner Barrios 和 SouYoung Jin 观察到，多模态 token 虽然常常可以按时间对齐，但语义上并不总是一一对应：一句喊叫会跨越多个视频片段，一个视觉动作也会被音频、字幕、上下文共同解释#Barrios-and-Jin-2024。如果仍然让标准 attention 对所有 token pair 一视同仁，模型既会浪费计算，也会把注意力分散到不该看的地方。

图 1：论文用电影理解场景说明跨模态 token 的语义关系并不等价于时间对齐。（来源：Barrios and Jin, 2024）

一句话概括：LAM 不是替换 Transformer，而是在 attention score 进入 softmax 之前，插入一个由输入动态生成的“软阀门”。

这个想法的价值在于克制。它没有重新设计大模型，也没有硬剪枝 token，而是把重点放在一个很小但关键的位置：attention score。标准 attention 负责计算 token 间的相似度，LAM 负责告诉模型“哪些相似度更值得相信，哪些应该被压低”。

Part 2

问题剖析：时间对齐不等于语义对齐

多模态视频理解里最容易误解的一点是：只要视频帧和音频帧按时间戳切好，就完成了对齐。论文的 Figure 1 反驳了这个直觉：音频里的 “Joanna’s shouts” 不只对应同一时间窗口内的视频 token，它会和稍早或稍后的多个视觉片段共同构成语义事件#Barrios-and-Jin-2024。

这会带来两个问题。第一是粒度不一致：视频 token、音频 token、文本 token 表示的信息单位不同，标准 token-to-token attention 只能看到局部相似度，却缺少全局结构判断。第二是长序列冗余：视频越长，attention 矩阵越大，但许多 token 只是背景、静止画面或弱相关声音。

方案	核心做法	优势	短板
Full Attention	所有 token 两两交互	表达能力强	计算冗余高，缺少显式重要性调节
固定稀疏 Mask	预设局部窗口或稀疏模式	效率稳定	不能随输入内容变化
Token Pruning	动态丢弃部分 token	可减少后续计算	硬决策会损失细粒度线索
LAM	输入相关的连续 mask 调节 attention score	动态、柔性、可插拔	增加模块成本，最优配置依赖任务

因此，LAM 的直觉更像“给注意力加一个全局调音台”：标准 attention 负责产生每个 token pair 的原始音量，LAM 根据整段序列的上下文，把不该突出的关系压低，把关键关系保留下来。

graph LR
  A[多模态 token 序列] --> B[标准 QK^T attention score]
  A --> C[LAM 读取全局序列]
  C --> D[生成动态 mask]
  B --> E[score 与 mask 融合]
  D --> E
  E --> F[softmax 后的注意力分布]

Part 3

LAM 方法详解：在 softmax 前加一个动态软调节器

先看标准 attention 留出的插入口

标准 scaled dot-product attention 的核心是先计算 query 和 key 的相似度，再做 softmax，最后加权 value#Vaswani-et-al.-2017。LAM 插入的位置非常明确：不是在 value 之后补一个后处理，也不是在输入端先删 token，而是在 attention score 进入 softmax 之前调节它。

标准 attention 与 LAM attention

标准形式先计算：

\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left( rac{QK^ op}{\sqrt{d_k}} ight)V

LAM 额外生成一个 mask $$M$$ ，并在 softmax 前融合：

\mathrm{Attention}_{LAM}(Q,K,V)=\mathrm{softmax}\left( rac{QK^ op}{\sqrt{d_k}}\odot M ight)V

这里 $$M$$ 与 attention score 同形状， $\odot$ 表示逐元素融合。直觉上， $M_{ij}$ 控制 token $$i$$ 看 token $$j$$ 时应不应该被放大或抑制。

LAM module：不是固定规则，而是输入驱动的 mask 生成器

LAM module 记作 $\mathcal{X}$ 。它读取整个输入序列 $$T$$ ，输出 mask $$M$$ 。如果是 self-attention，输入和输出都围绕同一个 token 序列，mask 形状是 $$L_t imes L_t$$ ；如果是 cross-attention，mask 形状则对应 query 序列与 key 序列的交互关系#Barrios-and-Jin-2024。

图 2：LAM 的整体位置：从输入序列生成 mask，再与 Transformer attention score 融合。（来源：Barrios and Jin, 2024）

LAM 生成函数

论文把 mask 生成抽象为一个可学习函数：

\mathcal{X}(T) \rightarrow M

在实现上，它可由线性层和非线性层组成，并随主任务端到端训练。mask 会与 attention score 做逐元素调节，值域被约束在连续软权重范围内；与固定稀疏窗口不同，LAM 的 mask 随输入内容变化。

这个设计的关键不是“多加了一些参数”，而是“把参数用在了选择性注意力上”。如果只是简单增加线性层，模型未必变好；LAM 真正改变的是 attention score 的结构，使模型在 softmax 前已经获得了一个全局先验。

Multi-layer LAM：为什么每一层都需要不同 mask

Transformer 的不同层并不在做同一件事。浅层更关注局部模式，中层开始组合片段关系，深层则更偏任务语义。用同一个 mask 去约束所有层，相当于强行要求每层使用相同的 token 关系结构，这通常过于粗糙。

Multi-layer LAM 因此为不同 Transformer 层提供不同 mask。这个设计特别适合视频理解：早期层可以保留更多局部视觉与音频线索，后期层则可以更强地压低背景 token，把注意力集中到与 query、caption 或 moment 相关的片段。

图 3：LAM module 的结构细节。它以输入序列为条件生成 attention mask，而不是使用静态 mask。（来源：Barrios and Jin, 2024）

关键直觉：Multi-layer LAM 的收益来自“每层有不同的注意力调节策略”，而不只是把一个 mask 网络堆深。

Cross-attention LAM：让文本查询和视频片段柔性对齐

在 moment retrieval 和 highlight detection 中，模型要回答的是“文本查询对应视频里的哪个时刻”。这时 attention 的两端不再是同一类 token：query 来自文本，key/value 来自视频。Cross-attention LAM 的作用，就是为这两类 token 的交互生成动态调节矩阵。

这比 self-attention 场景更符合 LAM 的动机：文本里的一个动作词会对应多个视频片段，视频里的一个长动作也会被几个词共同描述。动态 mask 给模型一个机会：不要只看局部相似度，而要从整个 query-video 结构里判断哪些关系更值得进入 softmax。

Part 4

训练与落地：它到底插到哪些任务里

论文没有把 LAM 绑定到单一任务，而是在多种 Transformer 系统里测试它的可插拔性。最重要的是多模态任务：MADv2 上的 Audio Description Generation、QVHighlights 上的 Moment Retrieval 与 Highlight Detection；另外也补充了 ImageNet-1K 和 MSRVTT 等单模态或视频 captioning 设置#Barrios-and-Jin-2024。

任务	输入模态	LAM 作用位置	写作时应关注
MADv2 Audio Description	视频 + 音频 + 文本生成	多模态 encoder / adapter 相关注意力	LLaMA 7B 冻结、音视频特征对齐、生成描述
QVHighlights	文本 query + 视频	encoder self-attention 与 cross-attention	文本和视频片段的非一一对应
ImageNet-1K	图像 patch	ViT attention	单模态收益较小，说明 LAM 更适合复杂序列
MSRVTT	视频 / 文本	SwinBERT 式视频 captioning 结构	用动态 mask 替代固定 mask 的收益

工程细节上，Audio Description 设置尤其重。论文使用冻结的 LLaMA 7B，并通过 adapter、bias、gate 等参数高效方式连接音视频特征#Zhang-et-al.-2023。视觉特征来自 SlowFast 与 CLIP ViT-B/32，音视频观察窗口使用 25 个视觉 token 与 25 个音频 token，对应 5 秒、5 FPS 的设置；训练协议包括 2 个 epoch 的对齐阶段和 20 个 epoch 的微调阶段，并使用 8 张 RTX 6000 Ada GPU，每张 50GB VRAM。换句话说，LAM 模块本身概念简单，但复现实验并不轻。

复现提醒

这篇论文截至本文写作时没有发现官方开源代码。论文给出了训练资源、特征提取和主要训练协议，但没有提供完整实现，因此复现者需要自行实现 LAM 的具体层宽、接入点和工程细节。

Part 5

实验验证：多模态收益最大，单模态是补充

实验部分最值得抓住的不是“所有任务都涨点”，而是“LAM 在多模态复杂序列里更有意义”。论文在最终结果表中同时列出多模态 encoder 与单模态 encoder 的结果：MADv2、QVHighlights 这类跨模态任务的收益更明显，而 ImageNet-1K 和 MSRVTT captioning 的提升更小，甚至个别指标下降#Barrios-and-Jin-2024。

任务	Baseline	Ours	增益	解读
MADv2 AD · R-L / C / R@5/16	10.7 / 9.4 / 43.4	13.5 / 18.6 / 56.1	+2.8 / +9.2 / +12.7	音视频描述生成最能体现动态 mask 对复杂多模态线索的帮助。
QVHighlights Moment Retrieval · R1@IoU0.7 / Avg mAP	44.98 / 39.86	46.94 / 42.32	+1.96 / +2.46	文本 query 与视频片段之间的 cross-attention 受益明显。
QVHighlights Highlight Detection · mAP / HIT@1	38.94 / 62.40	39.70 / 63.33	+0.76 / +0.93	高光检测也有稳定提升，但幅度小于检索任务。
ImageNet-1K · Top-1 / Top-5	82.71 / 96.32	83.45 / 96.59	+0.74 / +0.27	单模态图像分类可受益，但不是 LAM 的主战场。
MSRVTT Captioning · B4 / R-L / M / C / S	42.82 / 62.06 / 30.39 / 51.96 / 7.64	42.03 / 62.05 / 30.60 / 52.24 / 8.03	-0.79 / -0.01 / +0.21 / +0.28 / +0.39	captioning 指标混合：语义指标略升，但 B4、R-L 下降。

消融实验也很关键。MADv2 子集上，Full Attention 的 R-L / CIDEr 为 12.92 / 15.46；固定 sparse learnable mask 降到 10.02 / 9.72；LAM 提升到 13.10 / 16.58；Multi-Layer LAM 进一步达到 14.28 / 17.11。这说明性能提升不只是“多加参数”，而是动态 mask 确实改变了注意力选择方式。

Mask 设置	Rouge-L	CIDEr	结论
Full Attention	12.92	15.46	无动态调节的基线。
Learnable Attn Mask (Fixed)	10.02	9.72	固定稀疏 mask 在动态电影场景中反而伤害性能。
Learnable Attn Mask	13.10	16.58	输入相关的动态 mask 开始带来收益。
Multi-Layer Learnable Attn Mask	14.28	17.11	每层独立动态 mask 效果最好。

论文还做了“参数量 vs LAM 机制”的对照：在 MADv2 子集上，Baseline 为 12.92 / 15.46；加入相同参数量的 Full Attention 反而变为 11.23 / 12.87；Multi-Layer LAM 则达到 14.28 / 17.11。这组结果支持作者的核心判断：收益来自 mask 的选择性注意机制，而不是单纯扩大参数量。

关于 LAM 深度和融合方式，附录在 QVHighlights 验证集上比较了 2 到 64 层以及加法/乘法融合。最好的配置出现在 32 层，Average mAP 分别达到 42.61（加法）和 42.32（乘法）；前者是附录消融中的最佳配置，后者对应主结果表里的 Moment Retrieval 结果。这也提醒我们：LAM 不是越深越好，它仍然需要按任务调节容量。

图 4：QVHighlights 上关于 LAM 深度与融合方式的消融趋势。（来源：Barrios and Jin, 2024）

论文还分析了 attention weight 的分布。LAM 的目标不是把 attention 变成完全稀疏的二值矩阵，而是让分布更有结构：更多无关关系被压低，关键关系在 softmax 前获得更合适的相对位置。

图 5：Full attention 的权重分布示意。（来源：Barrios and Jin, 2024）

图 6：引入 LAM 后的注意力权重分布示意，用于观察动态 mask 对 score 的调节效果。（来源：Barrios and Jin, 2024）

实验解读：LAM 的证据链更偏“多任务一致改善 + 消融支持 + 分布可视化”，但论文没有充分给出 FLOPs、延迟和显存等工程效率指标。

Part 6

讨论与启发：LAM 的价值和边界

我觉得这篇论文最有价值的地方，是把一个常被忽略的问题摆到了 attention score 层面：多模态 Transformer 的困难不只是“融合得不够深”，还表现为“每一层都在看太多不该看的关系”。LAM 给出的解法非常直接：让模型自己学习一个输入相关的软 mask。

但它也不是万能模块。首先，论文没有开源代码，复现门槛高。其次，虽然作者强调减少冗余计算，但缺少系统的推理延迟、FLOPs、显存占用对比。第三，LAM 的层数、融合方式和接入位置都需要调参；32 层在一个任务上好，不代表其他任务也好。

图 7：论文附录中的失败案例。LAM 能把无关视觉 token 压低，但面对片尾背景音乐这类音频 token 时，会给出中间值，而不是期望中的接近零值。（来源：Barrios and Jin, 2024）

边界条件

LAM 更适合 token 粒度不一致、跨模态关系复杂、长序列冗余明显的场景。若任务本身 token 结构简单，它带来的收益会明显变小，例如 ImageNet-1K Top-1 只提升 0.74；同时，论文没有系统报告 FLOPs、延迟和显存对比，工程效率仍需单独评估。

如果把它放到更大的技术地图里，LAM 介于 full attention 和 hard token pruning 之间：它不完全保守，也不激进删除，而是通过连续 mask 调节注意力。这个中间路线值得关注，尤其适合视频理解、音视频生成、多模态检索这类“不知道该删谁，但知道不能全都同等看待”的任务。

可以带走的启发：当多模态模型出现注意力分散、长序列成本过高、跨模态对齐不稳定时，可以先考虑在 attention score 层引入输入相关的软 mask，而不是立刻扩大模型或硬剪枝 token。

参考来源

Barrios, W. and Jin, S. (2024). Multi-layer Learnable Attention Mask for Multimodal Tasks. arXiv:2406.02761
Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762
Zhang, R. et al. (2023). LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention. arXiv:2303.16199
Lei, J. et al. (2021). Detecting Moments and Highlights in Videos via Natural Language Queries. arXiv:2107.09609
Lei, J. et al. (2022). SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning. arXiv:2111.13196
Soldan, M. et al. (2022). MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions. arXiv:2112.00431
Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020