图像压缩专题（七）：零样本视频压缩，GVCC 与生成式视频 Codec

2026/05/19 00:33:00

核心问题：极低码率下的视频压缩困境

在极低码率（ultra-low bitrate）场景下，视频压缩面临一个根本性矛盾：传统混合编解码器（H.264 / HEVC / VVC）和学习型神经编解码器都会产生严重的细节损失和过度平滑（oversmoothing）——这正是率和失真-感知权衡（Rate-Distortion-Perception Trade-off）的体现。

现有的生成式视频压缩方法虽然引入了生成先验，但大多采用混合范式：传统编解码器先生成压缩表示，生成模型仅作为后处理精炼/恢复模块。在这种设计下，生成模型不决定传输符号，也不主导解码器的重建轨迹。

GVCC 提出的核心问题是：能否让预训练视频生成模型直接成为编解码器本身？

核心思路：传输的比特流直接指定解码器的生成轨迹，而非传统像素或 latent 压缩。预训练视频生成模型作为 decoder，根据比特流中的索引重建每步 SDE 随机创新，从而恢复视频。

第一章 · 理论基础

从概率流 ODE 到边缘保持 SDE

GVCC 的技术核心是将确定性概率流常微分方程（Probability-Flow ODE）转换为等价随机微分方程（SDE），在不重训练模型的情况下引入可编码的信息通道。理解这个转换需要三个基础概念。

1.1 Rectified Flow（整流流）

Rectified Flow 是一种基于概率流 ODE 的生成模型范式，核心是学习从噪声样本 $x_1 \sim p_1$ 到数据样本 $x_0 \sim p_0$ 的直线路径：

x_t = (1-t) x_0 + t \epsilon, \quad t \in [0,1]

采样时，通过反向概率流 ODE 从 $$x_1$$ 积分到 $$x_0$$ ：

\mathrm{d}x = \frac{x_0^* - x_t}{1-t} \, \mathrm{d}t

这里的关键问题是：这个过程是纯确定性的。给定初始 latent $$x_1$$ ，轨迹唯一，没有每步随机通道可用于嵌入压缩信息——这正是代码簿驱动压缩方法所依赖的。

1.2 代码簿驱动压缩的 bit-budget 约束

参考 DDCM、Turbo-DDCM、NCS 等工作，代码簿驱动压缩的核心思路是：将每步高斯噪声替换为可复现的 M-原子代码簿 $\mathcal{C} = \{\phi_j\}_{j=1}^M$ 中的元素，仅传输紧凑索引。

设 SDE 每步的随机创新为 $$r_k$$ ，编码端在代码簿中搜索最优匹配原子：

z_k^* = \underset{z \in \mathcal{C}}{\arg\min} \| r_k - z \|_2

传输的比特流即为每步原子索引 $\{i_k\}$ 。解码端用相同索引重建 SDE 轨迹。这要求每步创新必须可被 M-原子子空间表示，即：

\| g_{t_k} \sqrt{\Delta t} \, z_k^* \| \leq \| \mathcal{C} \text{ 子空间} \|

当创新方差超过代码簿容量时，SDE 轨迹发散，质量崩溃。这解释了为何 $g_\text{scale}$ 存在极窄的稳定区间（2.0–3.0）。

1.3 ODE → SDE 等价变换

score-SDE 框架的核心洞察告诉我们：任何概率流 ODE 都存在一族反向时间的 SDE，与原 ODE 共享完全相同的连续时间边缘分布 $$p_t$$ 。

对于 Rectified Flow 的反向 ODE：

\mathrm{d}x = \frac{x_0^* - x_t}{1-t} \, \mathrm{d}t

等价 SDE 为：

\mathrm{d}x = \Bigl[ \frac{x_0^* - x_t}{1-t} - g_t^2 \nabla_x \log p_t(x) \Bigr] \mathrm{d}t + g_t \, \mathrm{d}w

其中 $g_t \geq 0$ 是扩散系数， $\mathrm{d}w$ 是维纳过程。引入非零 $$g_t$$ 的意义在于：将随机性从初始 latent 重新分配到每步随机创新——即从"种子噪声决定一切"变为"每步创新携带信息"。

Score-from-Velocity：从速度场推导 Score

实际应用中，我们只有学习的速度场 $$v_t^*$$ 而非 score 函数。通过恒等式可以直接推导：

\nabla_x \log p_t(x) = \frac{(x_0^* - x_t) - v_t^*}{g_t^2 (1-t)}

这使得整个框架无需重训练——score 可以从预训练模型的 velocity 输出在线计算。

第二章 · 技术方案

GVCC 统一框架

如图 2 所示，GVCC 的压缩流程分为三个阶段：3D VAE 编码 → 代码簿驱动 SDE 压缩 → 解码重建。三种条件策略（T2V / I2V / FLF2V）共享同一 SDE-代码簿骨干，仅在条件注入方式上有所不同。

2.1 三种条件策略

模式	参考信息	适用场景	码率效率	空间保真	时序一致
T2V	无参考帧	最低码率、纯生成模式	⭐⭐⭐⭐⭐	⭐⭐	⭐⭐
I2V	首帧 + AR GOP 链	有首帧锚点的场景	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
FLF2V	首尾帧双锚点	强时空一致性需求	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐

T2V（Text-to-Video）：无参考帧模式

码流仅包含代码簿原子索引，代表最低边信息（side-information）模式。没有空间锚点，生成完全依赖预训练视频模型的生成先验。适用于比特率极度受限、可以接受一定幻觉风险的场景。

I2V（Image-to-Video）：自回归图像到视频 + 尾 latent 修正

首帧通过学习型图像编解码器压缩传输，后续帧使用自回归 GOP 链式结构（类似 DCVC 的 temporal 传播）。尾部 latent 修正：每个 GOP 的最后一帧 latent 额外传输一个细粒度修正信号，缓解 AR 误差累积。

FLF2V（First-Last-Frame-to-Video）：首尾帧到视频

每个 GOP 的首帧和尾帧同时作为边界锚点压缩传输，中间帧通过代码簿驱动的 SDE 采样重建。首尾帧的双重锚定显著改善时序一致性，避免跨 GOP 的大幅 appearance drift。边界帧使用 CompressAI 压缩（质量 level 4）。

2.2 编码端算法流程


# GVCC 编码端伪代码（每步）
for k in range(T):
    # 1. 估计当前步的 score（从 velocity 推导）
    score = (x0_pred - x_t) / (g_scale^2 * (1 - t_k))

    # 2. 计算所需随机创新
    residual = target_latent - (x_t - Δt * (x0_pred - x_t) / (1 - t_k))
    innovation = residual / (g_scale * sqrt(Δt))

    # 3. 在代码簿中搜索最优原子
    z_star = argmin_{z ∈ C} || innovation - z||_2
    transmitted_index = codebook.index(z_star)

    # 4. 更新 latent 状态
    x_{t_{k+1}} = x_{t_k} - Δt * (x0_pred - x_t) / (1 - t_k) + g_scale * sqrt(Δt) * z_star

2.3 解码端算法流程

解码端使用共享 seed 和传输的索引序列，精确重建相同的 SDE 轨迹：


# GVCC 解码端伪代码（每步）
for k in range(T):
    # 1. 从索引获取代码簿原子
    z_star = codebook[transmitted_index[k]]

    # 2. 重放 SDE 更新步骤
    x_{t_{k+1}} = x_{t_k} - Δt * (x0_pred - x_t) / (1 - t_k) + g_scale * sqrt(Δt) * z_star

    # 3. VAE 解码重建视频帧
    video_frames = vae_decode(x_0)

关键特性：编解码端的代码簿原子完全相同，共享 seed 保证初始状态一致，因此解码端无需编码端的完整信息即可精确重建轨迹——只需传输每步的原子索引序列。

第三章 · 实验结果

UVG 数据集上的性能评估

3.1 感知质量对比（~0.005 bpp）

方法	BPP	LPIPS ↓	改进幅度	备注
DCVC-RT	~0.005	0.391	—（baseline）	学习型神经视频编解码
GNVC-VD	~0.005	~0.18	+54% LPIPS 降低	预训练视频扩散模型精炼
GVCC-T2V	~0.005	0.134	+65% LPIPS 降低	生成模型即编解码器

3.2 率失真覆盖范围

GVCC 在 UVG 480p 上覆盖了近两个数量级的比特率范围：

M（原子数）	K（代码簿大小）	BPP	码率 (kbps)	PSNR (dB)
8	256	0.0008	5.3	22.5
16	512	0.0018	11.9	24.3
32	2048	0.0044	28.5	26.3
64	16384	0.011	71.2	28.1
128	16384	0.022	142.4	28.9
256	65536	0.050	322.8	30.0

3.3 感知偏好研究（内部）

10 名视频处理研究熟悉人员参与的成对偏好研究中：

对比	比特率	GVCC 胜率（排除平局）
GVCC vs. DCVC-RT	~0.005 bpp	97%
GVCC vs. GNVC-VD	附近比特率	88%

3.4 忠实性分析

在受控的 in-distribution 测试中，GVCC 展现了极高的忠实性：

测试类型	PSNR (dB)	LPIPS	MS-SSIM	ΔE (色差)	人脸 ID (ArcFace)
色彩标定	48.60	0.004	0.998	0.26	—
文字覆盖	38.87	0.002	0.998	0.26	—
人脸	31.58	0.022	0.986	2.34	0.857
OOD（越界）	22.81	0.188	0.860	4.10	—

ΔE < 1 表示色差不可感知。GOP 链式结构在三个 GOP 上不表现出累积退化，验证了 FLF2V 边界共享设计的稳健性。

3.5 默认超参数

参数	720p	1080p	作用
M（每步原子数）	64	80	主要码率控制变量
K（代码簿大小）	16384	16384	每步搜索空间表达力
T（采样步数）	20	20	收敛稳定性
$g_\text{scale}$	3.0	3.0	SDE 扩散系数（稳定区间最大值）
GOP 长度	33	33	4× VAE 时序 stride
边界帧质量	4	4	CompressAI 质量 level（FLF2V/I2V）

第四章 · 关键发现与消融

超参数敏感性分析

4.1 原子数 M：质量饱和与线性码率

BPP 随 M 近似线性增长（M=16 → 0.0012 bpp，M=256 → 0.0192 bpp），但 PSNR 质量在 M > 128 后趋于饱和。M=64 是默认最优值——增加 M beyond 64 仅带来边际收益，同时增加码率。LPIPS 甚至出现轻微恶化（M=128 时 0.117，M=256 时 0.121），说明过多原子可能引入代码簿噪声。

4.2 代码簿大小 K：表达力与计算权衡

K 从 1024 → 16384 可获得 0.64 dB PSNR 增益（31.04 → 31.68 dB）和 0.019 LPIPS 改善（0.141 → 0.122），但编码时间翻倍（46s → 90s）。K=65536 额外增加 0.23 dB 的代价是 2.6× 计算开销（237s）。K=16384 是表达力和效率的最佳平衡点。

4.3 采样步数 T：存在最小值

T=5 时产生灾难性失败（PSNR 19.3 dB，LPIPS 0.576），T=15 建立了最小可用步数（T=10 → T=15 有巨大 LPIPS 跳变：0.514 → 0.211）。T=20 之后收益递减，T=30 仅增加 0.5 dB PSNR 但编码时间增加 50%。

4.4 扩散系数 $g_\text{scale}$ ：极窄的稳定区间

$g_\text{scale}$ 是最敏感的超参数，存在极窄的稳定区间（2.0–3.0）。当 $g_\text{scale} = 5.0$ 时 PSNR 骤降至 29.3 dB、LPIPS 飙升至 0.597， $g_\text{scale} = 8.0$ 时进一步恶化至 22.9 dB / 0.797。

这直接验证了 bit-budget 理论：增加 $g_\text{scale}$ 以二次方规模放大创新方差，一旦该方差超过 M=64 原子子空间的表示容量，代码簿匹配无法引导 SDE 轨迹，发散随即发生。

4.5 GOP 长度与时序建模

17 帧 GOP 过短，无法充分发挥视频模型的时序建模能力，导致明显的时间闪烁和 appearance drift（LPIPS 0.224 vs. 33 帧的 0.122）。33 帧和 49 帧性能相当，49 帧在 1080p 下因 VAE 4× 时序压缩效率更高而略微有利。

超参数选择哲学

GVCC 的超参数设计体现了清晰的可解释性原则：M 控制码率（线性），T 控制收敛（存在最小值）， $g_\text{scale}$ 受 bit-budget 约束（有稳定区间上限）。这些关系均有理论解释而非纯经验调优。

第五章 · 范式思考

生成式压缩：从混合范式到统一框架

5.1 范式转变的意义

传统视频编解码器的设计哲学是"精确表示 + 有损压缩"：传输足够精确的像素或 latent 表示，解码器做确定性重建。生成式压缩的出现引入了"先验引导 + 采样重建"的思路。

但 DDPM 先前的生成式编解码器（GLVC、GNVC-VD、GVC）仍采用混合范式：编解码器定义压缩表示，生成模型仅作为精炼模块。GVCC 和 Free-GVC 代表了更彻底的方向——生成模型即编解码器。

5.2 GVCC vs. Free-GVC

同为无训练压缩方法，GVCC 和 Free-GVC 在压缩机制上有本质区别：

维度	Free-GVC	GVCC
压缩机制	逆向信道编码（reverse channel coding）	代码簿驱动的 SDE 采样
基础模型	CogVideoX-2B（扩散）	Wan 2.1（整流流）
信息注入点	扩散轨迹（score-based）	每步 SDE 随机创新
理论框架	信息论-逆向信道	概率流 ODE ↔ SDE 等价

5.3 当前局限与适用边界

作为生成式编解码器，GVCC 在极低码率下可能产生逼真但失真的内容——论文明确指出不适合取证/证据用途。输入 OOD（分布外）内容时，VAE 和代码簿匹配同时退化，边界帧开销占比上升。

然而，在受控 in-distribution 场景下，FLF2V 的边界共享设计有效抑制了累积退化，色彩/文字等细节具有极高忠实性（ΔE ≈ 0.26），这为实际应用提供了可靠基础。

结语

GVCC 的核心贡献不仅在于具体方法，更在于提出了一种生成式压缩的范式转变：从"编解码器 + 生成式精炼"的混合设计，走向"生成模型即编解码器"的统一框架。

通过将 Rectified Flow 的确定性 ODE 采样器转换为边缘保持的随机过程（SDE），GVCC 在不重训练预训练模型的情况下，恢复了代码簿驱动压缩所需的信息传输通道。三种条件策略（T2V / I2V / FLF2V）覆盖了从纯生成到边界锚定的完整谱系，在 UVG 数据集上以低至 ~0.003 bpp 的比特率实现了业界领先的感知质量。

这一方向还有广阔的探索空间：更大规模的原子代码簿、更多样的条件策略融合、跨模型泛化……生成式编解码器的时代才刚刚开始。

GVCC

1.1 Rectified Flow（整流流）

1.2 代码簿驱动压缩的 bit-budget 约束

1.3 ODE → SDE 等价变换

Score-from-Velocity：从速度场推导 Score

2.1 三种条件策略

T2V（Text-to-Video）：无参考帧模式

I2V（Image-to-Video）：自回归图像到视频 + 尾 latent 修正

FLF2V（First-Last-Frame-to-Video）：首尾帧到视频

2.2 编码端算法流程

2.3 解码端算法流程

3.1 感知质量对比（~0.005 bpp）

3.2 率失真覆盖范围

3.3 感知偏好研究（内部）

3.4 忠实性分析

3.5 默认超参数

4.1 原子数 M：质量饱和与线性码率

4.2 代码簿大小 K：表达力与计算权衡

4.3 采样步数 T：存在最小值

4.4 扩散系数 $g_\text{scale}$：极窄的稳定区间

4.5 GOP 长度与时序建模

5.1 范式转变的意义

5.2 GVCC vs. Free-GVC

5.3 当前局限与适用边界

参考来源

4.4 扩散系数 $g_\text{scale}$ ：极窄的稳定区间