ESC
输入关键词搜索文章
目录

Learnable Attention Mask

arXiv 2024 · Dartmouth College
不是换掉 attention,而是在 attention score 前加一个输入相关的动态调节器。
4数据集验证
5任务配置
7论文原图
32QVH 最优层数
Part 1
为什么多模态场景里的 attention 不该一视同仁

Transformer 的 self-attention 有一个很强的默认前提:只要给定一串 token,模型就可以通过两两相似度,把重要关系自己算出来。这个前提在纯文本里已经足够强,但一旦进入视频、音频、文本混合的场景,问题会变得微妙得多。

《Multi-layer Learnable Attention Mask for Multimodal Tasks》关注的正是这个缝隙。作者 Wayner Barrios 和 SouYoung Jin 观察到,多模态 token 虽然常常可以按时间对齐,但语义上并不总是一一对应:一句喊叫会跨越多个视频片段,一个视觉动作也会被音频、字幕、上下文共同解释#Barrios-and-Jin-2024。如果仍然让标准 attention 对所有 token pair 一视同仁,模型既会浪费计算,也会把注意力分散到不该看的地方。

Learnable Attention Mask 论文 teaser
图 1:论文用电影理解场景说明跨模态 token 的语义关系并不等价于时间对齐。(来源:Barrios and Jin, 2024)
一句话概括:LAM 不是替换 Transformer,而是在 attention score 进入 softmax 之前,插入一个由输入动态生成的“软阀门”。

这个想法的价值在于克制。它没有重新设计大模型,也没有硬剪枝 token,而是把重点放在一个很小但关键的位置:attention score。标准 attention 负责计算 token 间的相似度,LAM 负责告诉模型“哪些相似度更值得相信,哪些应该被压低”。

Part 2
问题剖析:时间对齐不等于语义对齐

多模态视频理解里最容易误解的一点是:只要视频帧和音频帧按时间戳切好,就完成了对齐。论文的 Figure 1 反驳了这个直觉:音频里的 “Joanna’s shouts” 不只对应同一时间窗口内的视频 token,它会和稍早或稍后的多个视觉片段共同构成语义事件#Barrios-and-Jin-2024

这会带来两个问题。第一是粒度不一致:视频 token、音频 token、文本 token 表示的信息单位不同,标准 token-to-token attention 只能看到局部相似度,却缺少全局结构判断。第二是长序列冗余:视频越长,attention 矩阵越大,但许多 token 只是背景、静止画面或弱相关声音。

方案核心做法优势短板
Full Attention所有 token 两两交互表达能力强计算冗余高,缺少显式重要性调节
固定稀疏 Mask预设局部窗口或稀疏模式效率稳定不能随输入内容变化
Token Pruning动态丢弃部分 token可减少后续计算硬决策会损失细粒度线索
LAM输入相关的连续 mask 调节 attention score动态、柔性、可插拔增加模块成本,最优配置依赖任务

因此,LAM 的直觉更像“给注意力加一个全局调音台”:标准 attention 负责产生每个 token pair 的原始音量,LAM 根据整段序列的上下文,把不该突出的关系压低,把关键关系保留下来。

graph LR
  A[多模态 token 序列] --> B[标准 QK^T attention score]
  A --> C[LAM 读取全局序列]
  C --> D[生成动态 mask]
  B --> E[score 与 mask 融合]
  D --> E
  E --> F[softmax 后的注意力分布]
Part 3
LAM 方法详解:在 softmax 前加一个动态软调节器

先看标准 attention 留出的插入口

标准 scaled dot-product attention 的核心是先计算 query 和 key 的相似度,再做 softmax,最后加权 value#Vaswani-et-al.-2017。LAM 插入的位置非常明确:不是在 value 之后补一个后处理,也不是在输入端先删 token,而是在 attention score 进入 softmax 之前调节它。

标准 attention 与 LAM attention

标准形式先计算:

$$\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left( rac{QK^ op}{\sqrt{d_k}} ight)V$$

LAM 额外生成一个 mask $M$,并在 softmax 前融合:

$$\mathrm{Attention}_{LAM}(Q,K,V)=\mathrm{softmax}\left( rac{QK^ op}{\sqrt{d_k}}\odot M ight)V$$

这里 $M$ 与 attention score 同形状,$\odot$ 表示逐元素融合。直觉上,$M_{ij}$ 控制 token $i$ 看 token $j$ 时应不应该被放大或抑制。

LAM module:不是固定规则,而是输入驱动的 mask 生成器

LAM module 记作 $\mathcal{X}$。它读取整个输入序列 $T$,输出 mask $M$。如果是 self-attention,输入和输出都围绕同一个 token 序列,mask 形状是 $L_t imes L_t$;如果是 cross-attention,mask 形状则对应 query 序列与 key 序列的交互关系#Barrios-and-Jin-2024

LAM architecture overview
图 2:LAM 的整体位置:从输入序列生成 mask,再与 Transformer attention score 融合。(来源:Barrios and Jin, 2024)

LAM 生成函数

论文把 mask 生成抽象为一个可学习函数:

$$\mathcal{X}(T) \rightarrow M$$

在实现上,它可由线性层和非线性层组成,并随主任务端到端训练。mask 会与 attention score 做逐元素调节,值域被约束在连续软权重范围内;与固定稀疏窗口不同,LAM 的 mask 随输入内容变化。

这个设计的关键不是“多加了一些参数”,而是“把参数用在了选择性注意力上”。如果只是简单增加线性层,模型未必变好;LAM 真正改变的是 attention score 的结构,使模型在 softmax 前已经获得了一个全局先验。

Multi-layer LAM:为什么每一层都需要不同 mask

Transformer 的不同层并不在做同一件事。浅层更关注局部模式,中层开始组合片段关系,深层则更偏任务语义。用同一个 mask 去约束所有层,相当于强行要求每层使用相同的 token 关系结构,这通常过于粗糙。

Multi-layer LAM 因此为不同 Transformer 层提供不同 mask。这个设计特别适合视频理解:早期层可以保留更多局部视觉与音频线索,后期层则可以更强地压低背景 token,把注意力集中到与 query、caption 或 moment 相关的片段。

LAM module detail
图 3:LAM module 的结构细节。它以输入序列为条件生成 attention mask,而不是使用静态 mask。(来源:Barrios and Jin, 2024)
关键直觉:Multi-layer LAM 的收益来自“每层有不同的注意力调节策略”,而不只是把一个 mask 网络堆深。

Cross-attention LAM:让文本查询和视频片段柔性对齐

在 moment retrieval 和 highlight detection 中,模型要回答的是“文本查询对应视频里的哪个时刻”。这时 attention 的两端不再是同一类 token:query 来自文本,key/value 来自视频。Cross-attention LAM 的作用,就是为这两类 token 的交互生成动态调节矩阵。

这比 self-attention 场景更符合 LAM 的动机:文本里的一个动作词会对应多个视频片段,视频里的一个长动作也会被几个词共同描述。动态 mask 给模型一个机会:不要只看局部相似度,而要从整个 query-video 结构里判断哪些关系更值得进入 softmax。

Part 4
训练与落地:它到底插到哪些任务里

论文没有把 LAM 绑定到单一任务,而是在多种 Transformer 系统里测试它的可插拔性。最重要的是多模态任务:MADv2 上的 Audio Description Generation、QVHighlights 上的 Moment Retrieval 与 Highlight Detection;另外也补充了 ImageNet-1K 和 MSRVTT 等单模态或视频 captioning 设置#Barrios-and-Jin-2024

任务输入模态LAM 作用位置写作时应关注
MADv2 Audio Description视频 + 音频 + 文本生成多模态 encoder / adapter 相关注意力LLaMA 7B 冻结、音视频特征对齐、生成描述
QVHighlights文本 query + 视频encoder self-attention 与 cross-attention文本和视频片段的非一一对应
ImageNet-1K图像 patchViT attention单模态收益较小,说明 LAM 更适合复杂序列
MSRVTT视频 / 文本SwinBERT 式视频 captioning 结构用动态 mask 替代固定 mask 的收益

工程细节上,Audio Description 设置尤其重。论文使用冻结的 LLaMA 7B,并通过 adapter、bias、gate 等参数高效方式连接音视频特征#Zhang-et-al.-2023。视觉特征来自 SlowFast 与 CLIP ViT-B/32,音视频观察窗口使用 25 个视觉 token 与 25 个音频 token,对应 5 秒、5 FPS 的设置;训练协议包括 2 个 epoch 的对齐阶段和 20 个 epoch 的微调阶段,并使用 8 张 RTX 6000 Ada GPU,每张 50GB VRAM。换句话说,LAM 模块本身概念简单,但复现实验并不轻。

复现提醒

这篇论文截至本文写作时没有发现官方开源代码。论文给出了训练资源、特征提取和主要训练协议,但没有提供完整实现,因此复现者需要自行实现 LAM 的具体层宽、接入点和工程细节。

Part 5
实验验证:多模态收益最大,单模态是补充

实验部分最值得抓住的不是“所有任务都涨点”,而是“LAM 在多模态复杂序列里更有意义”。论文在最终结果表中同时列出多模态 encoder 与单模态 encoder 的结果:MADv2、QVHighlights 这类跨模态任务的收益更明显,而 ImageNet-1K 和 MSRVTT captioning 的提升更小,甚至个别指标下降#Barrios-and-Jin-2024

任务BaselineOurs增益解读
MADv2 AD · R-L / C / R@5/1610.7 / 9.4 / 43.413.5 / 18.6 / 56.1+2.8 / +9.2 / +12.7音视频描述生成最能体现动态 mask 对复杂多模态线索的帮助。
QVHighlights Moment Retrieval · R1@IoU0.7 / Avg mAP44.98 / 39.8646.94 / 42.32+1.96 / +2.46文本 query 与视频片段之间的 cross-attention 受益明显。
QVHighlights Highlight Detection · mAP / HIT@138.94 / 62.4039.70 / 63.33+0.76 / +0.93高光检测也有稳定提升,但幅度小于检索任务。
ImageNet-1K · Top-1 / Top-582.71 / 96.3283.45 / 96.59+0.74 / +0.27单模态图像分类可受益,但不是 LAM 的主战场。
MSRVTT Captioning · B4 / R-L / M / C / S42.82 / 62.06 / 30.39 / 51.96 / 7.6442.03 / 62.05 / 30.60 / 52.24 / 8.03-0.79 / -0.01 / +0.21 / +0.28 / +0.39captioning 指标混合:语义指标略升,但 B4、R-L 下降。

消融实验也很关键。MADv2 子集上,Full Attention 的 R-L / CIDEr 为 12.92 / 15.46;固定 sparse learnable mask 降到 10.02 / 9.72;LAM 提升到 13.10 / 16.58;Multi-Layer LAM 进一步达到 14.28 / 17.11。这说明性能提升不只是“多加参数”,而是动态 mask 确实改变了注意力选择方式。

Mask 设置Rouge-LCIDEr结论
Full Attention12.9215.46无动态调节的基线。
Learnable Attn Mask (Fixed)10.029.72固定稀疏 mask 在动态电影场景中反而伤害性能。
Learnable Attn Mask13.1016.58输入相关的动态 mask 开始带来收益。
Multi-Layer Learnable Attn Mask14.2817.11每层独立动态 mask 效果最好。

论文还做了“参数量 vs LAM 机制”的对照:在 MADv2 子集上,Baseline 为 12.92 / 15.46;加入相同参数量的 Full Attention 反而变为 11.23 / 12.87;Multi-Layer LAM 则达到 14.28 / 17.11。这组结果支持作者的核心判断:收益来自 mask 的选择性注意机制,而不是单纯扩大参数量。

关于 LAM 深度和融合方式,附录在 QVHighlights 验证集上比较了 2 到 64 层以及加法/乘法融合。最好的配置出现在 32 层,Average mAP 分别达到 42.61(加法)和 42.32(乘法);前者是附录消融中的最佳配置,后者对应主结果表里的 Moment Retrieval 结果。这也提醒我们:LAM 不是越深越好,它仍然需要按任务调节容量。

QVHighlights ablation average mAP
图 4:QVHighlights 上关于 LAM 深度与融合方式的消融趋势。(来源:Barrios and Jin, 2024)

论文还分析了 attention weight 的分布。LAM 的目标不是把 attention 变成完全稀疏的二值矩阵,而是让分布更有结构:更多无关关系被压低,关键关系在 softmax 前获得更合适的相对位置。

full attention distribution
图 5:Full attention 的权重分布示意。(来源:Barrios and Jin, 2024)
LAM attention distribution
图 6:引入 LAM 后的注意力权重分布示意,用于观察动态 mask 对 score 的调节效果。(来源:Barrios and Jin, 2024)
实验解读:LAM 的证据链更偏“多任务一致改善 + 消融支持 + 分布可视化”,但论文没有充分给出 FLOPs、延迟和显存等工程效率指标。
Part 6
讨论与启发:LAM 的价值和边界

我觉得这篇论文最有价值的地方,是把一个常被忽略的问题摆到了 attention score 层面:多模态 Transformer 的困难不只是“融合得不够深”,还表现为“每一层都在看太多不该看的关系”。LAM 给出的解法非常直接:让模型自己学习一个输入相关的软 mask。

但它也不是万能模块。首先,论文没有开源代码,复现门槛高。其次,虽然作者强调减少冗余计算,但缺少系统的推理延迟、FLOPs、显存占用对比。第三,LAM 的层数、融合方式和接入位置都需要调参;32 层在一个任务上好,不代表其他任务也好。

LAM failure case
图 7:论文附录中的失败案例。LAM 能把无关视觉 token 压低,但面对片尾背景音乐这类音频 token 时,会给出中间值,而不是期望中的接近零值。(来源:Barrios and Jin, 2024)

边界条件

LAM 更适合 token 粒度不一致、跨模态关系复杂、长序列冗余明显的场景。若任务本身 token 结构简单,它带来的收益会明显变小,例如 ImageNet-1K Top-1 只提升 0.74;同时,论文没有系统报告 FLOPs、延迟和显存对比,工程效率仍需单独评估。

如果把它放到更大的技术地图里,LAM 介于 full attention 和 hard token pruning 之间:它不完全保守,也不激进删除,而是通过连续 mask 调节注意力。这个中间路线值得关注,尤其适合视频理解、音视频生成、多模态检索这类“不知道该删谁,但知道不能全都同等看待”的任务。

可以带走的启发:当多模态模型出现注意力分散、长序列成本过高、跨模态对齐不稳定时,可以先考虑在 attention score 层引入输入相关的软 mask,而不是立刻扩大模型或硬剪枝 token。

参考来源

  • Barrios, W. and Jin, S. (2024). Multi-layer Learnable Attention Mask for Multimodal Tasks. arXiv:2406.02761
  • Vaswani, A. et al. (2017). Attention Is All You Need. arXiv:1706.03762
  • Zhang, R. et al. (2023). LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention. arXiv:2303.16199
  • Lei, J. et al. (2021). Detecting Moments and Highlights in Videos via Natural Language Queries. arXiv:2107.09609
  • Lei, J. et al. (2022). SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning. arXiv:2111.13196
  • Soldan, M. et al. (2022). MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions. arXiv:2112.00431
  • Radford, A. et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020