ESC
输入关键词搜索文章
目录

GVCC

Zero-Shot Video Compression via Codebook-Driven Stochastic Rectified Flow
用预训练视频生成模型直接做编解码器
65%LPIPS 降低(vs DCVC-RT)
0.134LPIPS @ 0.005 bpp
97%感知偏好胜率
3条件策略模式
核心问题:极低码率下的视频压缩困境

在极低码率(ultra-low bitrate)场景下,视频压缩面临一个根本性矛盾:传统混合编解码器(H.264 / HEVC / VVC)和学习型神经编解码器都会产生严重的细节损失和过度平滑(oversmoothing)——这正是率和失真-感知权衡(Rate-Distortion-Perception Trade-off)的体现。

现有的生成式视频压缩方法虽然引入了生成先验,但大多采用混合范式:传统编解码器先生成压缩表示,生成模型仅作为后处理精炼/恢复模块。在这种设计下,生成模型不决定传输符号,也不主导解码器的重建轨迹。

GVCC 提出的核心问题是:能否让预训练视频生成模型直接成为编解码器本身?

核心思路:传输的比特流直接指定解码器的生成轨迹,而非传统像素或 latent 压缩。预训练视频生成模型作为 decoder,根据比特流中的索引重建每步 SDE 随机创新,从而恢复视频。
第一章 · 理论基础
从概率流 ODE 到边缘保持 SDE

GVCC 的技术核心是将确定性概率流常微分方程(Probability-Flow ODE)转换为等价随机微分方程(SDE),在不重训练模型的情况下引入可编码的信息通道。理解这个转换需要三个基础概念。

1.1 Rectified Flow(整流流)

Rectified Flow 是一种基于概率流 ODE 的生成模型范式,核心是学习从噪声样本 $x_1 \sim p_1$ 到数据样本 $x_0 \sim p_0$ 的直线路径:

$$x_t = (1-t) x_0 + t \epsilon, \quad t \in [0,1]$$

采样时,通过反向概率流 ODE 从 $x_1$ 积分到 $x_0$

$$\mathrm{d}x = \frac{x_0^* - x_t}{1-t} \, \mathrm{d}t$$

这里的关键问题是:这个过程是纯确定性的。给定初始 latent $x_1$,轨迹唯一,没有每步随机通道可用于嵌入压缩信息——这正是代码簿驱动压缩方法所依赖的。

1.2 代码簿驱动压缩的 bit-budget 约束

参考 DDCM、Turbo-DDCM、NCS 等工作,代码簿驱动压缩的核心思路是:将每步高斯噪声替换为可复现的 M-原子代码簿 $\mathcal{C} = \{\phi_j\}_{j=1}^M$ 中的元素,仅传输紧凑索引。

设 SDE 每步的随机创新为 $r_k$,编码端在代码簿中搜索最优匹配原子:

$$z_k^* = \underset{z \in \mathcal{C}}{\arg\min} \| r_k - z \|_2$$

传输的比特流即为每步原子索引 $\{i_k\}$。解码端用相同索引重建 SDE 轨迹。这要求每步创新必须可被 M-原子子空间表示,即:

$$\| g_{t_k} \sqrt{\Delta t} \, z_k^* \| \leq \| \mathcal{C} \text{ 子空间} \|$$

当创新方差超过代码簿容量时,SDE 轨迹发散,质量崩溃。这解释了为何 $g_\text{scale}$ 存在极窄的稳定区间(2.0–3.0)。

1.3 ODE → SDE 等价变换

score-SDE 框架的核心洞察告诉我们:任何概率流 ODE 都存在一族反向时间的 SDE,与原 ODE 共享完全相同的连续时间边缘分布 $p_t$

对于 Rectified Flow 的反向 ODE:

$$\mathrm{d}x = \frac{x_0^* - x_t}{1-t} \, \mathrm{d}t$$

等价 SDE 为:

$$\mathrm{d}x = \Bigl[ \frac{x_0^* - x_t}{1-t} - g_t^2 \nabla_x \log p_t(x) \Bigr] \mathrm{d}t + g_t \, \mathrm{d}w$$

其中 $g_t \geq 0$ 是扩散系数,$\mathrm{d}w$ 是维纳过程。引入非零 $g_t$ 的意义在于:将随机性从初始 latent 重新分配到每步随机创新——即从"种子噪声决定一切"变为"每步创新携带信息"。

Score-from-Velocity:从速度场推导 Score

实际应用中,我们只有学习的速度场 $v_t^*$ 而非 score 函数。通过恒等式可以直接推导:

$$\nabla_x \log p_t(x) = \frac{(x_0^* - x_t) - v_t^*}{g_t^2 (1-t)}$$

这使得整个框架无需重训练——score 可以从预训练模型的 velocity 输出在线计算。

第二章 · 技术方案
GVCC 统一框架

如图 2 所示,GVCC 的压缩流程分为三个阶段:3D VAE 编码 → 代码簿驱动 SDE 压缩 → 解码重建。三种条件策略(T2V / I2V / FLF2V)共享同一 SDE-代码簿骨干,仅在条件注入方式上有所不同。

2.1 三种条件策略

模式参考信息适用场景码率效率空间保真时序一致
T2V无参考帧最低码率、纯生成模式⭐⭐⭐⭐⭐⭐⭐⭐⭐
I2V首帧 + AR GOP 链有首帧锚点的场景⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
FLF2V首尾帧双锚点强时空一致性需求⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

T2V(Text-to-Video):无参考帧模式

码流仅包含代码簿原子索引,代表最低边信息(side-information)模式。没有空间锚点,生成完全依赖预训练视频模型的生成先验。适用于比特率极度受限、可以接受一定幻觉风险的场景。

I2V(Image-to-Video):自回归图像到视频 + 尾 latent 修正

首帧通过学习型图像编解码器压缩传输,后续帧使用自回归 GOP 链式结构(类似 DCVC 的 temporal 传播)。尾部 latent 修正:每个 GOP 的最后一帧 latent 额外传输一个细粒度修正信号,缓解 AR 误差累积。

FLF2V(First-Last-Frame-to-Video):首尾帧到视频

每个 GOP 的首帧和尾帧同时作为边界锚点压缩传输,中间帧通过代码簿驱动的 SDE 采样重建。首尾帧的双重锚定显著改善时序一致性,避免跨 GOP 的大幅 appearance drift。边界帧使用 CompressAI 压缩(质量 level 4)。

2.2 编码端算法流程


# GVCC 编码端伪代码(每步)
for k in range(T):
    # 1. 估计当前步的 score(从 velocity 推导)
    score = (x0_pred - x_t) / (g_scale^2 * (1 - t_k))

    # 2. 计算所需随机创新
    residual = target_latent - (x_t - Δt * (x0_pred - x_t) / (1 - t_k))
    innovation = residual / (g_scale * sqrt(Δt))

    # 3. 在代码簿中搜索最优原子
    z_star = argmin_{z ∈ C} || innovation - z||_2
    transmitted_index = codebook.index(z_star)

    # 4. 更新 latent 状态
    x_{t_{k+1}} = x_{t_k} - Δt * (x0_pred - x_t) / (1 - t_k) + g_scale * sqrt(Δt) * z_star
  

2.3 解码端算法流程

解码端使用共享 seed 和传输的索引序列,精确重建相同的 SDE 轨迹


# GVCC 解码端伪代码(每步)
for k in range(T):
    # 1. 从索引获取代码簿原子
    z_star = codebook[transmitted_index[k]]

    # 2. 重放 SDE 更新步骤
    x_{t_{k+1}} = x_{t_k} - Δt * (x0_pred - x_t) / (1 - t_k) + g_scale * sqrt(Δt) * z_star

    # 3. VAE 解码重建视频帧
    video_frames = vae_decode(x_0)
  
关键特性:编解码端的代码簿原子完全相同,共享 seed 保证初始状态一致,因此解码端无需编码端的完整信息即可精确重建轨迹——只需传输每步的原子索引序列。
第三章 · 实验结果
UVG 数据集上的性能评估

3.1 感知质量对比(~0.005 bpp)

方法BPPLPIPS ↓改进幅度备注
DCVC-RT~0.0050.391—(baseline)学习型神经视频编解码
GNVC-VD~0.005~0.18+54% LPIPS 降低预训练视频扩散模型精炼
GVCC-T2V~0.0050.134+65% LPIPS 降低生成模型即编解码器

3.2 率失真覆盖范围

GVCC 在 UVG 480p 上覆盖了近两个数量级的比特率范围:

M(原子数)K(代码簿大小)BPP码率 (kbps)PSNR (dB)
82560.00085.322.5
165120.001811.924.3
3220480.004428.526.3
64163840.01171.228.1
128163840.022142.428.9
256655360.050322.830.0

3.3 感知偏好研究(内部)

10 名视频处理研究熟悉人员参与的成对偏好研究中:

对比比特率GVCC 胜率(排除平局)
GVCC vs. DCVC-RT~0.005 bpp97%
GVCC vs. GNVC-VD附近比特率88%

3.4 忠实性分析

在受控的 in-distribution 测试中,GVCC 展现了极高的忠实性:

测试类型PSNR (dB)LPIPSMS-SSIMΔE (色差)人脸 ID (ArcFace)
色彩标定48.600.0040.9980.26
文字覆盖38.870.0020.9980.26
人脸31.580.0220.9862.340.857
OOD(越界)22.810.1880.8604.10

ΔE < 1 表示色差不可感知。GOP 链式结构在三个 GOP 上不表现出累积退化,验证了 FLF2V 边界共享设计的稳健性。

3.5 默认超参数

参数720p1080p作用
M(每步原子数)6480主要码率控制变量
K(代码簿大小)1638416384每步搜索空间表达力
T(采样步数)2020收敛稳定性
$g_\text{scale}$3.03.0SDE 扩散系数(稳定区间最大值)
GOP 长度33334× VAE 时序 stride
边界帧质量44CompressAI 质量 level(FLF2V/I2V)
第四章 · 关键发现与消融
超参数敏感性分析

4.1 原子数 M:质量饱和与线性码率

BPP 随 M 近似线性增长(M=16 → 0.0012 bpp,M=256 → 0.0192 bpp),但 PSNR 质量在 M > 128 后趋于饱和。M=64 是默认最优值——增加 M beyond 64 仅带来边际收益,同时增加码率。LPIPS 甚至出现轻微恶化(M=128 时 0.117,M=256 时 0.121),说明过多原子可能引入代码簿噪声。

4.2 代码簿大小 K:表达力与计算权衡

K 从 1024 → 16384 可获得 0.64 dB PSNR 增益(31.04 → 31.68 dB)和 0.019 LPIPS 改善(0.141 → 0.122),但编码时间翻倍(46s → 90s)。K=65536 额外增加 0.23 dB 的代价是 2.6× 计算开销(237s)。K=16384 是表达力和效率的最佳平衡点。

4.3 采样步数 T:存在最小值

T=5 时产生灾难性失败(PSNR 19.3 dB,LPIPS 0.576),T=15 建立了最小可用步数(T=10 → T=15 有巨大 LPIPS 跳变:0.514 → 0.211)。T=20 之后收益递减,T=30 仅增加 0.5 dB PSNR 但编码时间增加 50%。

4.4 扩散系数 $g_\text{scale}$:极窄的稳定区间

$g_\text{scale}$ 是最敏感的超参数,存在极窄的稳定区间(2.0–3.0)。当 $g_\text{scale} = 5.0$ 时 PSNR 骤降至 29.3 dB、LPIPS 飙升至 0.597,$g_\text{scale} = 8.0$ 时进一步恶化至 22.9 dB / 0.797。

这直接验证了 bit-budget 理论:增加 $g_\text{scale}$ 以二次方规模放大创新方差,一旦该方差超过 M=64 原子子空间的表示容量,代码簿匹配无法引导 SDE 轨迹,发散随即发生

4.5 GOP 长度与时序建模

17 帧 GOP 过短,无法充分发挥视频模型的时序建模能力,导致明显的时间闪烁和 appearance drift(LPIPS 0.224 vs. 33 帧的 0.122)。33 帧和 49 帧性能相当,49 帧在 1080p 下因 VAE 4× 时序压缩效率更高而略微有利。

超参数选择哲学

GVCC 的超参数设计体现了清晰的可解释性原则:M 控制码率(线性),T 控制收敛(存在最小值),$g_\text{scale}$ 受 bit-budget 约束(有稳定区间上限)。这些关系均有理论解释而非纯经验调优。

第五章 · 范式思考
生成式压缩:从混合范式到统一框架

5.1 范式转变的意义

传统视频编解码器的设计哲学是"精确表示 + 有损压缩":传输足够精确的像素或 latent 表示,解码器做确定性重建。生成式压缩的出现引入了"先验引导 + 采样重建"的思路。

但 DDPM 先前的生成式编解码器(GLVC、GNVC-VD、GVC)仍采用混合范式:编解码器定义压缩表示,生成模型仅作为精炼模块。GVCC 和 Free-GVC 代表了更彻底的方向——生成模型即编解码器

5.2 GVCC vs. Free-GVC

同为无训练压缩方法,GVCC 和 Free-GVC 在压缩机制上有本质区别:

维度Free-GVCGVCC
压缩机制逆向信道编码(reverse channel coding)代码簿驱动的 SDE 采样
基础模型CogVideoX-2B(扩散)Wan 2.1(整流流)
信息注入点扩散轨迹(score-based)每步 SDE 随机创新
理论框架信息论-逆向信道概率流 ODE ↔ SDE 等价

5.3 当前局限与适用边界

作为生成式编解码器,GVCC 在极低码率下可能产生逼真但失真的内容——论文明确指出不适合取证/证据用途。输入 OOD(分布外)内容时,VAE 和代码簿匹配同时退化,边界帧开销占比上升。

然而,在受控 in-distribution 场景下,FLF2V 的边界共享设计有效抑制了累积退化,色彩/文字等细节具有极高忠实性(ΔE ≈ 0.26),这为实际应用提供了可靠基础。

结语

GVCC 的核心贡献不仅在于具体方法,更在于提出了一种生成式压缩的范式转变:从"编解码器 + 生成式精炼"的混合设计,走向"生成模型即编解码器"的统一框架。

通过将 Rectified Flow 的确定性 ODE 采样器转换为边缘保持的随机过程(SDE),GVCC 在不重训练预训练模型的情况下,恢复了代码簿驱动压缩所需的信息传输通道。三种条件策略(T2V / I2V / FLF2V)覆盖了从纯生成到边界锚定的完整谱系,在 UVG 数据集上以低至 ~0.003 bpp 的比特率实现了业界领先的感知质量。

这一方向还有广阔的探索空间:更大规模的原子代码簿、更多样的条件策略融合、跨模型泛化……生成式编解码器的时代才刚刚开始。