ESC
输入关键词搜索文章
目录

LiON-LoRA

ICCV 2025 · Zhejiang University / Alibaba DAMO Academy / Hupan Lab
把 LoRA 从风格插件变成可线性调节的相机与运动控制器
3LoRA 融合原则
4k训练步数
100相机场景样本
172静态相机运动视频
Part 1
为什么视频扩散模型还不会“同时听话”

视频扩散模型已经能生成相当真实的片段,但一旦涉及精确控制,问题就暴露出来了。我们可以让模型学会某种风格、某个主体,甚至单独学会“向前推镜头”或“绕场景旋转”,可当我们希望它同时执行复合相机轨迹、并且还能线性调节对象运动强度时,现有 LoRA 方案往往就不够稳了。#Zhang et al., 2025 指出,这不是因为 LoRA 本身没用,而是因为大家过去更多把 LoRA 当作高层属性插件,忽略了它在低层几何控制中的融合机制问题。

LiON-LoRA 的核心主张很直接:要让 LoRA 真正适合视频扩散的空间与时间控制,就必须重新审视三个性质——Linear scalabilityOrthogonalityNorm consistency。论文不是简单叠加新模块,而是先把“为什么普通 LoRA 融合会失败”讲清楚,再给出一个参数高效、且无需联合训练的多 LoRA 融合框架。最终,它既能在少量数据下稳定控制复杂相机轨迹,也能把对象运动强度做成近似线性的可调量。

LiON-LoRA teaser
图 1:LiON-LoRA 可同时线性控制相机轨迹与对象运动强度(来源:LiON-LoRA, Fig.1)
Part 2
普通 LoRA 融合到底卡在哪里

要理解 LiON-LoRA 的动机,我们得先承认一个事实:LoRA 在风格迁移、主体定制这类任务里表现很好,是因为这些任务更偏高层语义融合;而相机控制是低层几何信号,它对特征空间的稳定性要求完全不同。#Zhang et al., 2025 把问题拆成两点:第一,普通 LoRA 融合不稳定;第二,LoRA 缩放并不线性。

所谓“不稳定”,指的是当我们把“前进”和“左环绕”两个相机 LoRA 按系数混合时,结果并不是平滑过渡,而可能出现方向突变。这说明简单的权重线性组合不足以描述低层运动空间。所谓“非线性”,指的是调整 adapter scale $\lambda$ 并不能精确控制相机幅度:$\lambda$ 太小,控制无效;$\lambda$ 太大,又会破坏基础模型的泛化。更关键的是,$\lambda$ 本质上只是注入强度,并不是模型输入的一部分,因此很难做到对轨迹幅度的显式、解耦调节。

核心矛盾:高层 LoRA 融合关注“风格是否兼容”,低层相机 LoRA 融合关注“几何信号是否正交、尺度是否一致、控制是否线性”。这三件事不能靠同一个 $\lambda$ 解决。

论文用一张二维示意图把这个问题讲得很直观:如果两个 LoRA 特征不正交,融合就会互相增强或抵消;如果它们的范数差异很大,某一个 LoRA 就会在融合中占据主导。也就是说,LoRA 融合不只是“加权求和”的问题,更是向量空间结构的问题。

Part 3
LiON-LoRA 如何重塑 LoRA 融合

LiON-LoRA 的方法可以理解为三层修复:先确认浅层具备正交性,再用范数归一化稳定融合,最后用 scaling token 把“控制量”变成模型能线性响应的输入。

3.1 浅层正交性:低层相机控制天然可解耦

论文首先做了一个逐层相似度分析。结果显示,在视频扩散 Transformer 的前几层,不同相机 LoRA 的输出平均 cosine similarity 仅为 $0.06 \pm 0.06$,几乎正交;而到了后面的深层,相关性才明显上升。这个观察非常重要,因为它说明低层 transformer block 本身就倾向于编码低频、全局的相机运动,而且不同相机原语在这些层里已经形成了相对独立的子空间。

Cosine similarity of camera LoRAs
图 2:浅层 LoRA 输出近似正交,深层耦合增强(来源:LiON-LoRA, Fig.4)

这意味着,我们不必强行让所有层都正交,只要利用好浅层的正交结构,就足以支撑稳定的低层相机控制。后续的高频细节生成则由深层负责,这与已有研究中“VDM 前几层编码相机、后几层编码高频内容”的发现是一致的 #Bahmani et al., 2024 #Sun et al., 2024

3.2 范数一致性:让融合不再被某个 LoRA 带偏

即便特征方向足够正交,如果不同 LoRA 的输出范数差别很大,融合仍然会失衡。论文观察到,不同相机 LoRA 在不同样本、不同 transformer block 上的输出范数差异显著,而且这种差异并不均匀。这就导致我们无法用一个全局固定的 adapter scale 来平衡它们。

LiON-LoRA 的解决办法非常简洁:对每个 LoRA 输出做 layer-wise post-normalization。形式上,对于第 $i$ 个 LoRA 的更新 $\Delta W_i$,归一化后的更新为:

LoRA 范数归一化

$$\Delta \hat{W}_i = \frac{\alpha}{\|\Delta W_i\|} \Delta W_i$$

其中 $\alpha$ 是统一缩放因子,通常取所有 LoRA 范数的均值,即 $\alpha = \frac{1}{k}\sum_i \|\Delta W_i\|$

这一步的直觉很简单:先把各个 LoRA 拉到相近的“音量”,再做融合,就不会出现某个 LoRA 突然盖过其他 LoRA 的情况。论文实验也表明,这一简单操作就能显著提升复合相机运动的平滑度。
Norm consistency across LoRAs
图 3:不同相机 LoRA 的输出范数存在显著差异(来源:LiON-LoRA, Fig.5)

3.3 Scaling Token:把控制量变成模型输入

如果说前两步是在修复“融合空间”,那么第三步就是在修复“控制接口”。LiON-LoRA 不再依赖 adapter scale $\lambda$ 来隐式调节运动幅度,而是引入一个专门的 scaling token,把控制值 $S \in [s, 1]$ 显式编码进模型输入序列。 具体做法是:先对 $S$ 做 Fourier positional embedding $\gamma(S)$,再通过线性投影得到 scaling token $E$,然后把它拼接到视频与文本 token 序列后面:

Scaling Token 构造

$$\gamma(S) = \big[ \sin(2^j \pi S), \cos(2^j \pi S) \big]_{j=0}^{J-1}$$
$$E = \mathrm{linear}(\gamma(S))$$
$$H' = [H; E] \in \mathbb{R}^{(n+1) \times d}$$

其中 $H$ 是原始视觉/文本 token 序列,$n$ 为序列长度,$d$ 为通道维度。

这里有一个重要设计:不同相机 LoRA 使用各自独立的投影层来编码 $S$,避免共享编码器带来的耦合。这样,scaling token 既能提供线性可控性,又不会破坏前面提到的正交性。

Linear scalability comparison
图 4:相比调整 adapter scale,scaling token 提供更稳定、更线性的控制(来源:LiON-LoRA, Fig.10)

3.4 Training-Free Multi-LoRA Fusion

当我们要同时融合多个 LoRA 时,直接把多个 scaling token 一起塞进去,可能会让它们彼此干扰。LiON-LoRA 的解法是:每个 LoRA 只在自己的 attention 子空间里 attend 自己的 scaling token。也就是说,虽然拼接后的序列是 $H' = [H; E_1; \dots; E_k]$,但第 $i$ 个 LoRA 实际参与 self-attention 的子序列是 $[H; E_i]$。attention 结束后,hidden states 取平均,scaling tokens 保留拼接,从而保证控制信号彼此解耦。

graph TD
    A["输入视频/文本 tokens H"] --> B["拼接 scaling tokens
H' = [H; E1; ...; Ek]"] B --> C1["LoRA1 attention 子空间
[H; E1]"] B --> C2["LoRA2 attention 子空间
[H; E2]"] B --> Ck["LoRAk attention 子空间
[H; Ek]"] C1 --> D["Average hidden states"] C2 --> D Ck --> D D --> E["输出 H_out"]

这套融合方式最大的优点是 training-free:各个 LoRA 可以独立训练,推理时再按需组合,不需要额外联合微调。它既支持多相机轨迹融合,也支持相机与对象运动的混合控制。

Part 4
训练方法:用极少数据换来强泛化

LiON-LoRA 的训练策略体现了“参数高效”的真正含义。基础模型采用 CogVideoX,训练分辨率为 $480 \times 720$,LoRA rank 设为 256,仅训练 4,000 步,学习率为 $5 \times 10^{-4}$,使用 4 张 NVIDIA H20 GPU,batch size 为 16。推理时使用 DDIM 采样 50 步,classifier-free guidance scale 为 6 #Zhang et al., 2025

相机控制训练数据来自 DL3DV:对每个基本相机原语(水平/垂直偏移、前后移动、绕中心轨道旋转),先用 3D Gaussian Splatting 重建场景,再渲染对应轨迹视频。每个基本原语使用 100 个重建场景。对象运动控制则收集了 172 个静态相机视频,并通过 CoTracker 边界点和 optical flow 过滤掉运动过小或不符合要求的样本,以确保相机与对象运动解耦。

训练效率亮点

相比许多竞品动辄 50k+ 步的微调,LiON-LoRA 只用 4k 步就能获得稳定可控性。这不仅节省算力,更重要的是减少了对基础模型泛化能力的侵蚀。

对对象运动强度的训练还有一个细节:为了避免相机运动干扰 motion scaling 的学习,这部分只在静态相机视频上进行。也就是说,LiON-LoRA 把“空间控制”和“时间控制”的训练数据做了明确分离,这也是它能统一两类控制的重要原因。

Part 5
实验验证:精度、线性与消融

论文从基础相机姿态、复杂融合轨迹、运动强度线性度、以及组件消融四个维度验证了方法有效性。

5.1 基础与复杂相机控制

在基础相机姿态上,LiON-LoRA 全面优于 CogVideoX、MotionCtrl、CameraCtrl、CamI2V 和 DimensionX-S*。RotErr 降至 0.776,TransErr 降至 0.167,ATE 降至 0.295,FVD 降至 136.0。相比 CamI2V,FVD 下降约 37.8%,说明不仅控制更准,生成质量也更稳定。

MethodRotErr ↓TransErr ↓ATE ↓FVD ↓
CogVideoX4.9740.7650.980387.6
MotionCtrl2.2540.2690.408290.9
CameraCtrl1.7370.1920.458218.9
CamI2V1.0330.2150.370294.6
DimensionX-S*1.2230.2010.359193.3
LiON-LoRA0.7760.1670.295136.0

在复杂融合轨迹上,LiON-LoRA 依然在 TransErr、ATE、FVD 上领先,分别为 0.197、0.345、172.8。RotErr 为 1.044,略高于 CamI2V 的 0.924,但整体仍显著优于多数基线。这说明 LiON-LoRA 的优势不仅在单一原语上,更体现在多运动组合时的稳定性。

5.2 运动强度的线性可控性

论文用 Pearson correlation 衡量控制值 $S$ 与光流幅度之间的线性关系。结果表明,scaling token 能在微调早期就快速建立强相关,而传统 adapter scale 几乎无法形成有效线性关系。这意味着 LiON-LoRA 真正把“运动强度”变成了一个可预测、可调节的量,而不是只能靠肉眼试出来的玄学参数。

Pearson correlation of motion strength
图 5:Scaling token 与光流幅度的 Pearson 相关显著优于 adapter scale(来源:LiON-LoRA, Fig.6)

5.3 数据量与组件消融

消融实验进一步验证了各组件的必要性。去掉 scaling token、LiON-fusion 或 LoRA norm 都会导致性能下降,其中去掉 LiON-fusion 影响最大,FVD 从 172.8 升至 254.5。这说明 training-free 的解耦融合机制并非锦上添花,而是复合控制稳定性的关键。

VariantRotErr ↓TransErr ↓ATE ↓FVD ↓
W/O scale token1.3170.2300.377179.3
W/O LiON-fusion1.8630.2690.427254.5
W/O LoRA norm1.4360.2650.392227.8
Full model1.0440.1970.345172.8

数据量消融也很有说服力:仅用 100 个样本训练 4k 步,就能达到 RotErr 0.802、TransErr 0.143、ATE 0.331、FVD 175.3。相比之下,很多基于 Plücker embedding 的方法通常需要更大规模数据和 10k+ 步微调。这说明 LiON-LoRA 的控制能力主要来自结构设计,而不是单纯堆数据。

Part 6
讨论:它解决了什么,还没解决什么

LiON-LoRA 最值得记住的贡献,不是某个单一技巧,而是它把“LoRA 融合”从一个工程经验问题重新表述成了一个可分析的向量空间问题。正交性解释了为什么浅层适合解耦,范数一致性解释了为什么融合会失衡,scaling token 解释了为什么控制量必须进入模型输入。这三者合起来,才让 LoRA 从“风格插件”变成了“几何控制器”。

当前局限

论文主要验证了离散相机原语及其组合,但对更连续、更自由的 6-DoF 相机路径、以及与文本语义强耦合的复杂运动指令,尚未充分展开。此外,motion scaling 依赖静态相机视频,若实际数据中难以完全去除相机抖动,可能仍需额外清洗或鲁棒训练策略。

对未来工作而言,LiON-LoRA 提供了一个很好的起点:既然 LoRA 融合可以被结构化地修复,那么类似的思路也许可以推广到其他低层控制信号,比如深度、法线、光照方向等。另一个值得探索的方向是,把 scaling token 与更丰富的运动表示结合,让“线性可控”不止停留在幅度上,也能扩展到轨迹形状、速度曲线等更细粒度的维度。

一句话总结:LiON-LoRA 证明了,视频扩散模型的可控性瓶颈未必在模型规模,而在我们是否用对了 LoRA 的融合方式。

参考来源

  • Zhang, Y., Cao, C., Yu, C., & Zhu, J. (2025). LiON-LoRA: Rethinking LoRA Fusion to Unify Controllable Spatial and Temporal Generation for Video Diffusion. ICCV 2025.

    PDF

    · arXiv:2507.05678

    · Project Page

  • Bahmani, S., Skorokhodov, I., Qian, G., Siarohin, A., Menapace, W., Tagliasacchi, A., Lindell, D. B., & Tulyakov, S. (2024). AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers. arXiv:2411.18673.

    arXiv:2411.18673
  • Sun, W., Chen, S., Liu, F., Chen, Z., Duan, Y., Zhang, J., & Wang, Y. (2024). DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion. arXiv:2411.04928.

    arXiv:2411.04928