Learnable Attention Mask
Transformer 的 self-attention 有一个很强的默认前提:只要给定一串 token,模型就可以通过两两相似度,把重要关系自己算出来。这个前提在纯文本里已经足够强,但一旦进入视频、音频、文本混合的场景,问题会变得微妙得多。
《Multi-layer Learnable Attention Mask for Multimodal Tasks》关注的正是这个缝隙。作者 Wayner Barrios 和 SouYoung Jin 观察到,多模态 token 虽然常常可以按时间对齐,但语义上并不总是一一对应:一句喊叫会跨越多个视频片段,一个视觉动作也会被音频、字幕、上下文共同解释#Barrios-and-Jin-2024。如果仍然让标准 attention 对所有 token pair 一视同仁,模型既会浪费计算,也会把注意力分散到不该看的地方。
这个想法的价值在于克制。它没有重新设计大模型,也没有硬剪枝 token,而是把重点放在一个很小但关键的位置:attention score。标准 attention 负责计算 token 间的相似度,LAM 负责告诉模型“哪些相似度更值得相信,哪些应该被压低”。
多模态视频理解里最容易误解的一点是:只要视频帧和音频帧按时间戳切好,就完成了对齐。论文的 Figure 1 反驳了这个直觉:音频里的 “Joanna’s shouts” 不只对应同一时间窗口内的视频 token,它会和稍早或稍后的多个视觉片段共同构成语义事件#Barrios-and-Jin-2024。
这会带来两个问题。第一是粒度不一致:视频 token、音频 token、文本 token 表示的信息单位不同,标准 token-to-token attention 只能看到局部相似度,却缺少全局结构判断。第二是长序列冗余:视频越长,attention 矩阵越大,但许多 token 只是背景、静止画面或弱相关声音。
| 方案 | 核心做法 | 优势 | 短板 |
|---|---|---|---|
| Full Attention | 所有 token 两两交互 | 表达能力强 | 计算冗余高,缺少显式重要性调节 |
| 固定稀疏 Mask | 预设局部窗口或稀疏模式 | 效率稳定 | 不能随输入内容变化 |
| Token Pruning | 动态丢弃部分 token | 可减少后续计算 | 硬决策会损失细粒度线索 |
| LAM | 输入相关的连续 mask 调节 attention score | 动态、柔性、可插拔 | 增加模块成本,最优配置依赖任务 |
因此,LAM 的直觉更像“给注意力加一个全局调音台”:标准 attention 负责产生每个 token pair 的原始音量,LAM 根据整段序列的上下文,把不该突出的关系压低,把关键关系保留下来。
graph LR A[多模态 token 序列] --> B[标准 QK^T attention score] A --> C[LAM 读取全局序列] C --> D[生成动态 mask] B --> E[score 与 mask 融合] D --> E E --> F[softmax 后的注意力分布]
先看标准 attention 留出的插入口
标准 scaled dot-product attention 的核心是先计算 query 和 key 的相似度,再做 softmax,最后加权 value#Vaswani-et-al.-2017。LAM 插入的位置非常明确:不是在 value 之后补一个后处理,也不是在输入端先删 token,而是在 attention score 进入 softmax 之前调节它。
标准 attention 与 LAM attention
标准形式先计算:
LAM 额外生成一个 mask $M$,并在 softmax 前融合:
这里 $M$ 与 attention score 同形状,$\odot$ 表示逐元素融合。直觉上,$M_{ij}$ 控制 token $i$ 看 token $j$ 时应不应该被放大或抑制。
LAM module:不是固定规则,而是输入驱动的 mask 生成器
LAM module 记作 $\mathcal{X}$。它读取整个输入序列 $T$,输出 mask $M$。如果是 self-attention,输入和输出都围绕同一个 token 序列,mask 形状是 $L_t imes L_t$;如果是 cross-attention,mask 形状则对应 query 序列与 key 序列的交互关系#Barrios-and-Jin-2024。
LAM 生成函数
论文把 mask 生成抽象为一个可学习函数:
在实现上,它可由线性层和非线性层组成,并随主任务端到端训练。mask 会与 attention score 做逐元素调节,值域被约束在连续软权重范围内;与固定稀疏窗口不同,LAM 的 mask 随输入内容变化。
这个设计的关键不是“多加了一些参数”,而是“把参数用在了选择性注意力上”。如果只是简单增加线性层,模型未必变好;LAM 真正改变的是 attention score 的结构,使模型在 softmax 前已经获得了一个全局先验。
Multi-layer LAM:为什么每一层都需要不同 mask
Transformer 的不同层并不在做同一件事。浅层更关注局部模式,中层开始组合片段关系,深层则更偏任务语义。用同一个 mask 去约束所有层,相当于强行要求每层使用相同的 token 关系结构,这通常过于粗糙。
Multi-layer LAM 因此为不同 Transformer 层提供不同 mask。这个设计特别适合视频理解:早期层可以保留更多局部视觉与音频线索,后期层则可以更强地压低背景 token,把注意力集中到与 query、caption 或 moment 相关的片段。
Cross-attention LAM:让文本查询和视频片段柔性对齐
在 moment retrieval 和 highlight detection 中,模型要回答的是“文本查询对应视频里的哪个时刻”。这时 attention 的两端不再是同一类 token:query 来自文本,key/value 来自视频。Cross-attention LAM 的作用,就是为这两类 token 的交互生成动态调节矩阵。
这比 self-attention 场景更符合 LAM 的动机:文本里的一个动作词会对应多个视频片段,视频里的一个长动作也会被几个词共同描述。动态 mask 给模型一个机会:不要只看局部相似度,而要从整个 query-video 结构里判断哪些关系更值得进入 softmax。
论文没有把 LAM 绑定到单一任务,而是在多种 Transformer 系统里测试它的可插拔性。最重要的是多模态任务:MADv2 上的 Audio Description Generation、QVHighlights 上的 Moment Retrieval 与 Highlight Detection;另外也补充了 ImageNet-1K 和 MSRVTT 等单模态或视频 captioning 设置#Barrios-and-Jin-2024。
| 任务 | 输入模态 | LAM 作用位置 | 写作时应关注 |
|---|---|---|---|
| MADv2 Audio Description | 视频 + 音频 + 文本生成 | 多模态 encoder / adapter 相关注意力 | LLaMA 7B 冻结、音视频特征对齐、生成描述 |
| QVHighlights | 文本 query + 视频 | encoder self-attention 与 cross-attention | 文本和视频片段的非一一对应 |
| ImageNet-1K | 图像 patch | ViT attention | 单模态收益较小,说明 LAM 更适合复杂序列 |
| MSRVTT | 视频 / 文本 | SwinBERT 式视频 captioning 结构 | 用动态 mask 替代固定 mask 的收益 |
工程细节上,Audio Description 设置尤其重。论文使用冻结的 LLaMA 7B,并通过 adapter、bias、gate 等参数高效方式连接音视频特征#Zhang-et-al.-2023。视觉特征来自 SlowFast 与 CLIP ViT-B/32,音视频观察窗口使用 25 个视觉 token 与 25 个音频 token,对应 5 秒、5 FPS 的设置;训练协议包括 2 个 epoch 的对齐阶段和 20 个 epoch 的微调阶段,并使用 8 张 RTX 6000 Ada GPU,每张 50GB VRAM。换句话说,LAM 模块本身概念简单,但复现实验并不轻。
复现提醒
这篇论文截至本文写作时没有发现官方开源代码。论文给出了训练资源、特征提取和主要训练协议,但没有提供完整实现,因此复现者需要自行实现 LAM 的具体层宽、接入点和工程细节。
实验部分最值得抓住的不是“所有任务都涨点”,而是“LAM 在多模态复杂序列里更有意义”。论文在最终结果表中同时列出多模态 encoder 与单模态 encoder 的结果:MADv2、QVHighlights 这类跨模态任务的收益更明显,而 ImageNet-1K 和 MSRVTT captioning 的提升更小,甚至个别指标下降#Barrios-and-Jin-2024。
| 任务 | Baseline | Ours | 增益 | 解读 |
|---|---|---|---|---|
| MADv2 AD · R-L / C / R@5/16 | 10.7 / 9.4 / 43.4 | 13.5 / 18.6 / 56.1 | +2.8 / +9.2 / +12.7 | 音视频描述生成最能体现动态 mask 对复杂多模态线索的帮助。 |
| QVHighlights Moment Retrieval · R1@IoU0.7 / Avg mAP | 44.98 / 39.86 | 46.94 / 42.32 | +1.96 / +2.46 | 文本 query 与视频片段之间的 cross-attention 受益明显。 |
| QVHighlights Highlight Detection · mAP / HIT@1 | 38.94 / 62.40 | 39.70 / 63.33 | +0.76 / +0.93 | 高光检测也有稳定提升,但幅度小于检索任务。 |
| ImageNet-1K · Top-1 / Top-5 | 82.71 / 96.32 | 83.45 / 96.59 | +0.74 / +0.27 | 单模态图像分类可受益,但不是 LAM 的主战场。 |
| MSRVTT Captioning · B4 / R-L / M / C / S | 42.82 / 62.06 / 30.39 / 51.96 / 7.64 | 42.03 / 62.05 / 30.60 / 52.24 / 8.03 | -0.79 / -0.01 / +0.21 / +0.28 / +0.39 | captioning 指标混合:语义指标略升,但 B4、R-L 下降。 |
消融实验也很关键。MADv2 子集上,Full Attention 的 R-L / CIDEr 为 12.92 / 15.46;固定 sparse learnable mask 降到 10.02 / 9.72;LAM 提升到 13.10 / 16.58;Multi-Layer LAM 进一步达到 14.28 / 17.11。这说明性能提升不只是“多加参数”,而是动态 mask 确实改变了注意力选择方式。
| Mask 设置 | Rouge-L | CIDEr | 结论 |
|---|---|---|---|
| Full Attention | 12.92 | 15.46 | 无动态调节的基线。 |
| Learnable Attn Mask (Fixed) | 10.02 | 9.72 | 固定稀疏 mask 在动态电影场景中反而伤害性能。 |
| Learnable Attn Mask | 13.10 | 16.58 | 输入相关的动态 mask 开始带来收益。 |
| Multi-Layer Learnable Attn Mask | 14.28 | 17.11 | 每层独立动态 mask 效果最好。 |
论文还做了“参数量 vs LAM 机制”的对照:在 MADv2 子集上,Baseline 为 12.92 / 15.46;加入相同参数量的 Full Attention 反而变为 11.23 / 12.87;Multi-Layer LAM 则达到 14.28 / 17.11。这组结果支持作者的核心判断:收益来自 mask 的选择性注意机制,而不是单纯扩大参数量。
关于 LAM 深度和融合方式,附录在 QVHighlights 验证集上比较了 2 到 64 层以及加法/乘法融合。最好的配置出现在 32 层,Average mAP 分别达到 42.61(加法)和 42.32(乘法);前者是附录消融中的最佳配置,后者对应主结果表里的 Moment Retrieval 结果。这也提醒我们:LAM 不是越深越好,它仍然需要按任务调节容量。
论文还分析了 attention weight 的分布。LAM 的目标不是把 attention 变成完全稀疏的二值矩阵,而是让分布更有结构:更多无关关系被压低,关键关系在 softmax 前获得更合适的相对位置。
我觉得这篇论文最有价值的地方,是把一个常被忽略的问题摆到了 attention score 层面:多模态 Transformer 的困难不只是“融合得不够深”,还表现为“每一层都在看太多不该看的关系”。LAM 给出的解法非常直接:让模型自己学习一个输入相关的软 mask。
但它也不是万能模块。首先,论文没有开源代码,复现门槛高。其次,虽然作者强调减少冗余计算,但缺少系统的推理延迟、FLOPs、显存占用对比。第三,LAM 的层数、融合方式和接入位置都需要调参;32 层在一个任务上好,不代表其他任务也好。
边界条件
LAM 更适合 token 粒度不一致、跨模态关系复杂、长序列冗余明显的场景。若任务本身 token 结构简单,它带来的收益会明显变小,例如 ImageNet-1K Top-1 只提升 0.74;同时,论文没有系统报告 FLOPs、延迟和显存对比,工程效率仍需单独评估。
如果把它放到更大的技术地图里,LAM 介于 full attention 和 hard token pruning 之间:它不完全保守,也不激进删除,而是通过连续 mask 调节注意力。这个中间路线值得关注,尤其适合视频理解、音视频生成、多模态检索这类“不知道该删谁,但知道不能全都同等看待”的任务。
参考来源
- Barrios, W. and Jin, S. (2024). Multi-layer Learnable Attention Mask for Multimodal Tasks. arXiv:2406.02761
- Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762
- Zhang, R. et al. (2023). LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention. arXiv:2303.16199
- Lei, J. et al. (2021). Detecting Moments and Highlights in Videos via Natural Language Queries. arXiv:2107.09609
- Lei, J. et al. (2022). SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning. arXiv:2111.13196
- Soldan, M. et al. (2022). MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions. arXiv:2112.00431
- Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020