LiON-LoRA
视频扩散模型已经能生成相当真实的片段,但一旦涉及精确控制,问题就暴露出来了。我们可以让模型学会某种风格、某个主体,甚至单独学会“向前推镜头”或“绕场景旋转”,可当我们希望它同时执行复合相机轨迹、并且还能线性调节对象运动强度时,现有 LoRA 方案往往就不够稳了。#Zhang et al., 2025 指出,这不是因为 LoRA 本身没用,而是因为大家过去更多把 LoRA 当作高层属性插件,忽略了它在低层几何控制中的融合机制问题。
LiON-LoRA 的核心主张很直接:要让 LoRA 真正适合视频扩散的空间与时间控制,就必须重新审视三个性质——Linear scalability、Orthogonality、Norm consistency。论文不是简单叠加新模块,而是先把“为什么普通 LoRA 融合会失败”讲清楚,再给出一个参数高效、且无需联合训练的多 LoRA 融合框架。最终,它既能在少量数据下稳定控制复杂相机轨迹,也能把对象运动强度做成近似线性的可调量。
要理解 LiON-LoRA 的动机,我们得先承认一个事实:LoRA 在风格迁移、主体定制这类任务里表现很好,是因为这些任务更偏高层语义融合;而相机控制是低层几何信号,它对特征空间的稳定性要求完全不同。#Zhang et al., 2025 把问题拆成两点:第一,普通 LoRA 融合不稳定;第二,LoRA 缩放并不线性。
所谓“不稳定”,指的是当我们把“前进”和“左环绕”两个相机 LoRA 按系数混合时,结果并不是平滑过渡,而可能出现方向突变。这说明简单的权重线性组合不足以描述低层运动空间。所谓“非线性”,指的是调整 adapter scale $\lambda$ 并不能精确控制相机幅度:$\lambda$ 太小,控制无效;$\lambda$ 太大,又会破坏基础模型的泛化。更关键的是,$\lambda$ 本质上只是注入强度,并不是模型输入的一部分,因此很难做到对轨迹幅度的显式、解耦调节。
论文用一张二维示意图把这个问题讲得很直观:如果两个 LoRA 特征不正交,融合就会互相增强或抵消;如果它们的范数差异很大,某一个 LoRA 就会在融合中占据主导。也就是说,LoRA 融合不只是“加权求和”的问题,更是向量空间结构的问题。
LiON-LoRA 的方法可以理解为三层修复:先确认浅层具备正交性,再用范数归一化稳定融合,最后用 scaling token 把“控制量”变成模型能线性响应的输入。
3.1 浅层正交性:低层相机控制天然可解耦
论文首先做了一个逐层相似度分析。结果显示,在视频扩散 Transformer 的前几层,不同相机 LoRA 的输出平均 cosine similarity 仅为 $0.06 \pm 0.06$,几乎正交;而到了后面的深层,相关性才明显上升。这个观察非常重要,因为它说明低层 transformer block 本身就倾向于编码低频、全局的相机运动,而且不同相机原语在这些层里已经形成了相对独立的子空间。
这意味着,我们不必强行让所有层都正交,只要利用好浅层的正交结构,就足以支撑稳定的低层相机控制。后续的高频细节生成则由深层负责,这与已有研究中“VDM 前几层编码相机、后几层编码高频内容”的发现是一致的 #Bahmani et al., 2024 #Sun et al., 2024。
3.2 范数一致性:让融合不再被某个 LoRA 带偏
即便特征方向足够正交,如果不同 LoRA 的输出范数差别很大,融合仍然会失衡。论文观察到,不同相机 LoRA 在不同样本、不同 transformer block 上的输出范数差异显著,而且这种差异并不均匀。这就导致我们无法用一个全局固定的 adapter scale 来平衡它们。
LiON-LoRA 的解决办法非常简洁:对每个 LoRA 输出做 layer-wise post-normalization。形式上,对于第 $i$ 个 LoRA 的更新 $\Delta W_i$,归一化后的更新为:
LoRA 范数归一化
其中 $\alpha$ 是统一缩放因子,通常取所有 LoRA 范数的均值,即 $\alpha = \frac{1}{k}\sum_i \|\Delta W_i\|$。
3.3 Scaling Token:把控制量变成模型输入
如果说前两步是在修复“融合空间”,那么第三步就是在修复“控制接口”。LiON-LoRA 不再依赖 adapter scale $\lambda$ 来隐式调节运动幅度,而是引入一个专门的 scaling token,把控制值 $S \in [s, 1]$ 显式编码进模型输入序列。 具体做法是:先对 $S$ 做 Fourier positional embedding $\gamma(S)$,再通过线性投影得到 scaling token $E$,然后把它拼接到视频与文本 token 序列后面:Scaling Token 构造
其中 $H$ 是原始视觉/文本 token 序列,$n$ 为序列长度,$d$ 为通道维度。
这里有一个重要设计:不同相机 LoRA 使用各自独立的投影层来编码 $S$,避免共享编码器带来的耦合。这样,scaling token 既能提供线性可控性,又不会破坏前面提到的正交性。
3.4 Training-Free Multi-LoRA Fusion
当我们要同时融合多个 LoRA 时,直接把多个 scaling token 一起塞进去,可能会让它们彼此干扰。LiON-LoRA 的解法是:每个 LoRA 只在自己的 attention 子空间里 attend 自己的 scaling token。也就是说,虽然拼接后的序列是 $H' = [H; E_1; \dots; E_k]$,但第 $i$ 个 LoRA 实际参与 self-attention 的子序列是 $[H; E_i]$。attention 结束后,hidden states 取平均,scaling tokens 保留拼接,从而保证控制信号彼此解耦。
graph TD
A["输入视频/文本 tokens H"] --> B["拼接 scaling tokens
H' = [H; E1; ...; Ek]"]
B --> C1["LoRA1 attention 子空间
[H; E1]"]
B --> C2["LoRA2 attention 子空间
[H; E2]"]
B --> Ck["LoRAk attention 子空间
[H; Ek]"]
C1 --> D["Average hidden states"]
C2 --> D
Ck --> D
D --> E["输出 H_out"]
这套融合方式最大的优点是 training-free:各个 LoRA 可以独立训练,推理时再按需组合,不需要额外联合微调。它既支持多相机轨迹融合,也支持相机与对象运动的混合控制。
LiON-LoRA 的训练策略体现了“参数高效”的真正含义。基础模型采用 CogVideoX,训练分辨率为 $480 \times 720$,LoRA rank 设为 256,仅训练 4,000 步,学习率为 $5 \times 10^{-4}$,使用 4 张 NVIDIA H20 GPU,batch size 为 16。推理时使用 DDIM 采样 50 步,classifier-free guidance scale 为 6 #Zhang et al., 2025。
相机控制训练数据来自 DL3DV:对每个基本相机原语(水平/垂直偏移、前后移动、绕中心轨道旋转),先用 3D Gaussian Splatting 重建场景,再渲染对应轨迹视频。每个基本原语使用 100 个重建场景。对象运动控制则收集了 172 个静态相机视频,并通过 CoTracker 边界点和 optical flow 过滤掉运动过小或不符合要求的样本,以确保相机与对象运动解耦。
训练效率亮点
相比许多竞品动辄 50k+ 步的微调,LiON-LoRA 只用 4k 步就能获得稳定可控性。这不仅节省算力,更重要的是减少了对基础模型泛化能力的侵蚀。
对对象运动强度的训练还有一个细节:为了避免相机运动干扰 motion scaling 的学习,这部分只在静态相机视频上进行。也就是说,LiON-LoRA 把“空间控制”和“时间控制”的训练数据做了明确分离,这也是它能统一两类控制的重要原因。
论文从基础相机姿态、复杂融合轨迹、运动强度线性度、以及组件消融四个维度验证了方法有效性。
5.1 基础与复杂相机控制
在基础相机姿态上,LiON-LoRA 全面优于 CogVideoX、MotionCtrl、CameraCtrl、CamI2V 和 DimensionX-S*。RotErr 降至 0.776,TransErr 降至 0.167,ATE 降至 0.295,FVD 降至 136.0。相比 CamI2V,FVD 下降约 37.8%,说明不仅控制更准,生成质量也更稳定。
| Method | RotErr ↓ | TransErr ↓ | ATE ↓ | FVD ↓ |
|---|---|---|---|---|
| CogVideoX | 4.974 | 0.765 | 0.980 | 387.6 |
| MotionCtrl | 2.254 | 0.269 | 0.408 | 290.9 |
| CameraCtrl | 1.737 | 0.192 | 0.458 | 218.9 |
| CamI2V | 1.033 | 0.215 | 0.370 | 294.6 |
| DimensionX-S* | 1.223 | 0.201 | 0.359 | 193.3 |
| LiON-LoRA | 0.776 | 0.167 | 0.295 | 136.0 |
在复杂融合轨迹上,LiON-LoRA 依然在 TransErr、ATE、FVD 上领先,分别为 0.197、0.345、172.8。RotErr 为 1.044,略高于 CamI2V 的 0.924,但整体仍显著优于多数基线。这说明 LiON-LoRA 的优势不仅在单一原语上,更体现在多运动组合时的稳定性。
5.2 运动强度的线性可控性
论文用 Pearson correlation 衡量控制值 $S$ 与光流幅度之间的线性关系。结果表明,scaling token 能在微调早期就快速建立强相关,而传统 adapter scale 几乎无法形成有效线性关系。这意味着 LiON-LoRA 真正把“运动强度”变成了一个可预测、可调节的量,而不是只能靠肉眼试出来的玄学参数。
5.3 数据量与组件消融
消融实验进一步验证了各组件的必要性。去掉 scaling token、LiON-fusion 或 LoRA norm 都会导致性能下降,其中去掉 LiON-fusion 影响最大,FVD 从 172.8 升至 254.5。这说明 training-free 的解耦融合机制并非锦上添花,而是复合控制稳定性的关键。
| Variant | RotErr ↓ | TransErr ↓ | ATE ↓ | FVD ↓ |
|---|---|---|---|---|
| W/O scale token | 1.317 | 0.230 | 0.377 | 179.3 |
| W/O LiON-fusion | 1.863 | 0.269 | 0.427 | 254.5 |
| W/O LoRA norm | 1.436 | 0.265 | 0.392 | 227.8 |
| Full model | 1.044 | 0.197 | 0.345 | 172.8 |
数据量消融也很有说服力:仅用 100 个样本训练 4k 步,就能达到 RotErr 0.802、TransErr 0.143、ATE 0.331、FVD 175.3。相比之下,很多基于 Plücker embedding 的方法通常需要更大规模数据和 10k+ 步微调。这说明 LiON-LoRA 的控制能力主要来自结构设计,而不是单纯堆数据。
LiON-LoRA 最值得记住的贡献,不是某个单一技巧,而是它把“LoRA 融合”从一个工程经验问题重新表述成了一个可分析的向量空间问题。正交性解释了为什么浅层适合解耦,范数一致性解释了为什么融合会失衡,scaling token 解释了为什么控制量必须进入模型输入。这三者合起来,才让 LoRA 从“风格插件”变成了“几何控制器”。
当前局限
论文主要验证了离散相机原语及其组合,但对更连续、更自由的 6-DoF 相机路径、以及与文本语义强耦合的复杂运动指令,尚未充分展开。此外,motion scaling 依赖静态相机视频,若实际数据中难以完全去除相机抖动,可能仍需额外清洗或鲁棒训练策略。
对未来工作而言,LiON-LoRA 提供了一个很好的起点:既然 LoRA 融合可以被结构化地修复,那么类似的思路也许可以推广到其他低层控制信号,比如深度、法线、光照方向等。另一个值得探索的方向是,把 scaling token 与更丰富的运动表示结合,让“线性可控”不止停留在幅度上,也能扩展到轨迹形状、速度曲线等更细粒度的维度。
参考来源
-
Zhang, Y., Cao, C., Yu, C., & Zhu, J. (2025). LiON-LoRA: Rethinking LoRA Fusion to Unify Controllable Spatial and Temporal Generation for Video Diffusion. ICCV 2025.
PDF -
Bahmani, S., Skorokhodov, I., Qian, G., Siarohin, A., Menapace, W., Tagliasacchi, A., Lindell, D. B., & Tulyakov, S. (2024). AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers. arXiv:2411.18673.
arXiv:2411.18673 -
Sun, W., Chen, S., Liu, F., Chen, Z., Duan, Y., Zhang, J., & Wang, Y. (2024). DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion. arXiv:2411.04928.
arXiv:2411.04928