ESC
输入关键词搜索文章
目录

数字人论文精读(二十四):UIKA

CVPR 2026 Highlight · 蚂蚁集团 & 南京大学
任意数量 Pose-Free 图像 → 一次前馈 → 可实时驱动的 3D 头部头像
CVPR2026 Highlight
220FPS 渲染
7500+合成身份
32H20 GPU × 2 周
Part 1 · 引言
为什么 Feed-Forward 通用头部头像很重要

想象一下:你只需要用手机自拍一张照片,AI 就能在几秒内生成一个 3D 数字分身——这个分身可以从任意角度观看,能做出任何表情,还能以 220 FPS 实时渲染。这不是科幻,而是 CVPR 2026 Highlight 论文 UIKA 做到的事情。

在远程会议、影视制作、VR/AR 等场景中,创建逼真的 3D 头部头像一直是核心需求。传统方法需要专业级多视角相机阵列 + 长时间的逐身份优化训练,成本高昂且无法泛化。近年来,前馈式(feed-forward)方法开始兴起——它们试图从一张或几张图片中"一次前馈"直接生成头像,无需逐身份训练。但现有方法要么只支持单图输入(大视角下退化严重),要么要求固定数量输入(如必须恰好 4 张),要么虽然支持任意数量却缺乏跨帧的显式对应关系。

UIKA 的答案是:用 UV 映射作为"通用语言"来连接不同视角和表情的图像。通过面部对应估计,它把每张输入图像的像素对齐到 canonical UV 空间,再通过创新的双流注意力(screen + UV)和自自适应融合策略,生成高质量、可实时驱动的 3D Gaussian 头部头像。

论文地址:https://arxiv.org/abs/2601.07603 | 代码:https://github.com/zijian-wu/uika | 项目页:https://zijian-wu.github.io/uika-page/

UIKA teaser
UIKA 支持从任意数量(单张到多张)的 pose-free 输入图像中一次前馈重建可动画驱动的 3D Gaussian 头部头像(来源:UIKA 论文 teaser)
Part 2 · 问题剖析
从"逐身份优化"到"一次前馈"的鸿沟

要理解 UIKA 的价值,我们首先需要看清当前方法的格局与缺口。下表展示了 UIKA 与 SOTA 方法在三个关键维度上的对比:

方法输入数量前馈 (FF)Pose-Free (PF)实时动画 (RTA)
GAGAvatar1
LAM1
Avat3r4
GPAvatar≥1
InvertAvatar≥1
DiffusionRig≥1
UIKA≥1

可以看到,没有任何已有方法在全部四个维度上同时满足:GAGAvatar 和 LAM 虽然支持单图前馈,但大视角下渲染质量显著退化;Avat3r 虽然支持多视角,但要求固定 4 张输入且需要相机标定;GPAvatar 和 PF-LHM 支持任意数量输入,但缺乏跨帧的显式对应关系,导致多视角信息聚合不够可靠——甚至输入图像越多,效果反而可能退化。

反直觉的发现是:问题的核心不在于"多接收几张图",而在于"如何让不同视角的像素对上号"。不同视角、不同表情的图像在 screen space 中天然没有对齐——左上角的一个像素在第一张图里是左眼,在第二张图里可能是额头。这就是为什么简单地把多张图的特征 concat 起来做 attention 效果有限。

UIKA 的核心洞察:如果能把每张图的人脸像素映射到同一个 canonical UV 空间,就自然解决了跨帧对齐问题。UV 映射是人脸参数化模型的天然属性——FLAME 模型已经定义了每个人脸三角形在 UV 空间中的位置。只要知道每个像素的 UV 坐标,就能把不同图像的像素"汇聚"到同一个 UV 画布上。

什么是 Canonical UV 空间?

UV 空间是 3D 人脸模型(如 FLAME)的二维参数化展开——就像把地球仪摊平成一张世界地图。每个三维人脸顶点都对应 UV 空间中的一个 \((u,v)\) 坐标,这个映射对所有人脸模型是固定的。

Canonical 意味着这个 UV 空间是"标准姿态"下的——不做任何表情、不偏转任何角度。不管输入图像里的人是什么表情、什么角度,只要我们知道每个像素对应 canonical UV 空间的哪个位置,就能把不同图像的内容"贴"到同一张标准地图上,实现跨帧对齐。

类比:不同角度拍的建筑照片,只要知道每张照片的像素对应建筑 CAD 模型的哪个面,就能把所有照片拼成一张完整的建筑立面图。UV 空间就是人脸的"标准 CAD 图纸"。

Part 3 · 模型结构与创新
UV 引导的通用头部头像 Pipeline

UIKA 的完整 Pipeline 分为五个阶段,如架构图所示:

UIKA pipeline overview
UIKA 整体 Pipeline:面部对应估计 → 颜色重投影与聚合 → 双空间特征提取 → 双流注意力 Transformer → UV Decoder + 自自适应融合(来源:UIKA 论文 Fig. pipeline)

3.1 面部对应估计与颜色重投影

Pipeline 的第一阶段是面部对应估计器(Facial Correspondence Estimator)。给定任意数量 \(N\) 张 pose-free 输入图像 \(\{\mathrm{I}^i_{\text{s}}\}_{i=1}^N\),它逐像素预测 UV 坐标:

$$\mathrm{U}^i = \mathcal{U}(\mathrm{I}^i_{\text{s}}), \quad i \in [1, N]$$

其中 \(\mathrm{U}^i = (u, v) \in [0,1]^2\) 是像素级 UV 坐标,\(\mathcal{U}\) 采用 frozen DINOv3 编码器 + 可训练 DPT head 的架构,受 Pixel3DMM 启发 #Giebenhain-et-al.-2026

什么是 DPT 架构?传入 DPT 的是什么?

DPT(Dense Prediction Transformer)是一种将 ViT(Vision Transformer)从图像分类改造为密集预测任务(如深度估计、语义分割)的架构。它的核心思想是:ViT 在全局 self-attention 过程中天然保留了空间信息,DPT 通过将不同层的 token 重组为多尺度特征图,再融合上采样,就能输出与原图分辨率一致的密集预测结果。

在 UIKA 中,数据流是:输入图像 → frozen DINOv3 编码器 → patch tokens(特征序列)→ 可训练的 DPT head → 像素级 UV 坐标。DINOv3 把 512×512 的输入图像编码为一组 patch 级别的特征向量,DPT head 接收这些特征,通过重组和上采样,最终输出每个像素在 canonical UV 空间中的 \((u,v)\) 坐标。DINOv3 是冻结的(不参与训练),只训练 DPT head 和后续的轻量 CNN fusion 模块,这样既利用了预训练模型的强大视觉表征,又大幅降低了训练开销。

对应估计器的详细架构

补充材料中给出了对应估计器 \(\mathcal{U}\) 的完整网络结构。它由三部分组成:

  1. Frozen DINOv3 ViT-L/16:提取 patch 级特征,输出 \(\mathcal{N} \times 1024 \times 1024\) 的特征(\(\mathcal{N}\) 为输入图像数)。
  2. 4 层交替 Attention:受 VGGT 启发,交替使用 Frame Attention(单帧内 self-attention,捕获帧内空间关系)和 Global Attention(跨所有帧 attention,建立帧间对应)。这种层次化设计让网络既能理解局部人脸结构,又能推理全局多视图一致性。
  3. 可训练 DPT Head:将多尺度特征融合后输出 2 通道 UV 坐标图 \((\in [0,1])\),再乘以输入图像 mask 提取有效人脸区域。
面部对应估计器网络架构
图:面部对应估计器网络详细架构(来源:补充材料 Fig. uv_pred_net)
UV 坐标预测与 Pixel3DMM 对比
图:UIKA 与 Pixel3DMM 的 UV 坐标预测对比。UIKA 在边界区域(尤其是头发周围)更平滑,这对后续颜色重投影至关重要(来源:补充材料 Fig. uv_pred_res)

有了 UV 坐标,就可以把每张输入图像从 screen space 重投影到 UV space:

$$\mathrm{I}^i_{\text{uv}} = \operatorname{Reproj}(\mathrm{I}^i_{\text{s}}, \mathrm{U}^i)$$

然后对所有重投影图像做逐像素平均,得到聚合 UV 图像 \(\mathrm{I}_{\text{aggr}}\) 和置信度图 \(\gamma_{\text{aggr}}\)

$$\mathrm{I}_{\text{aggr}}, \gamma_{\text{aggr}} \leftarrow \operatorname{Aggr}(\mathrm{I}^1_{\text{uv}}, \ldots, \mathrm{I}^N_{\text{uv}})$$

置信度的计算方式很巧妙:\(\gamma_{\text{aggr}} = \operatorname{Norm}(\log(1 + n_{\text{hit}}))\),其中 \(n_{\text{hit}}\) 是该 UV 像素被多少张输入图像"命中"。用 log 压制高频区域(如正脸)的主导地位,让侧脸区域也能获得合理的置信度。

直觉:UV 映射就像把人脸"摊平"成一张标准地图。每张输入图像在这张地图上覆盖一部分区域,聚合后就能得到"这个人长什么样"的完整信息。

3.2 双流注意力:Screen + UV

这是 UIKA 最核心的创新。已有方法(如 LAM、GPAvatar)只用 screen space 的 cross-attention——learnable tokens 只与原始图像的特征交互,缺乏结构化对应关系。

UIKA 在标准 screen attention 之外,增加了一个 UV attention 分支:

$$\Delta \mathcal{Z}_{\text{j}}, \Delta \mathcal{F}_{\text{j}} = \operatorname{Attn}_{\text{j}}(\mathcal{Z}, \mathcal{F}_{\text{j}}), \quad \text{j} \in \{\text{s}, \text{uv}\}$$
$$\mathcal{Z}' = \mathcal{Z} + \operatorname{MLP}(\mathcal{Z} + \Delta \mathcal{Z}_{\text{s}} + \Delta \mathcal{Z}_{\text{uv}})$$

这里 \(\mathcal{Z}\) 是 learnable UV tokens(9216 个,reshape 为 96×96 网格),\(\mathcal{F}_{\text{s}}\)\(\mathcal{F}_{\text{uv}}\) 分别是 screen 和 UV 空间的多尺度特征(由 frozen DINOv3 + 轻量 CNN fusion 模块提取)。

两个 attention 分支的增量直接相加——screen attention 提供局部细节(纹理、边缘),UV attention 提供结构化全局上下文(人脸拓扑、语义区域)。12 层 MM-DiT Transformer 块 #Esser-et-al.-2024 在每个 block 中同时执行两种 attention。

为什么不只做 UV attention?因为 UV 重投影过程中会丢失一些高频细节(如皱纹、毛孔),screen attention 保留了原始图像的细粒度信息,两者互补。

3.3 UV Decoder 与自自适应融合

从 Transformer 的 4 个深度层(\(l=3,6,9,12\))取出 UV tokens,与聚合 UV 图 \(\mathrm{I}_{\text{aggr}}\) 和置信度 \(\gamma_{\text{aggr}}\) 一起送入 UV Decoder:

$$\{\hat{\boldsymbol{c}}_k, w_k, o_k, \boldsymbol{\Delta\mu}_k, \boldsymbol{s}_k, \boldsymbol{r}_k\}_{k=1}^M = \mathcal{D}(\mathcal{Z}^l; \mathrm{I}_{\text{aggr}}, \gamma_{\text{aggr}})$$

Decoder 采用 DPT 架构,输出 384×384 的 UV 特征图。通过 FLAME UV rasterization 获取有效 UV mask,从中采样约 130K 个点,经 2 层 FC + per-attribute MLP 解码为 Gaussian 属性。

送入 UV Decoder 的三样东西

UV Decoder 的输入来自三个来源,汇聚了前序所有阶段的成果:

  • \(\mathcal{Z}^l\)(多层 UV tokens):从 Transformer 的 \(l=3,6,9,12\) 四个深度层取出的 learnable UV tokens(9216 个,reshape 为 96×96 网格)。这些 tokens 经过 12 层 screen + UV 双流 attention 的反复提炼,已经融合了输入图像的全部语义信息——浅层保留局部细节,深层编码全局结构。
  • \(\mathrm{I}_{\text{aggr}}\)(聚合 UV 图像):来自 Phase 1 的颜色重投影与聚合阶段。所有输入图像通过 UV 坐标映射后逐像素平均,得到一张"摊平的人脸纹理图"。它提供了来自真实图像的观测色彩,补足网络预测色可能缺失的细节。
  • \(\gamma_{\text{aggr}}\)(置信度图):同样来自聚合阶段,记录每个 UV 像素被多少张输入图像"命中"。它告诉 Decoder 哪些区域观测充分(可信度高)、哪些区域观测不足(需要网络预测来补)。

这三者通过 DPT 架构融合:tokens 提供语义信息,\(\mathrm{I}_{\text{aggr}}\) 提供观测色彩,\(\gamma_{\text{aggr}}\) 作为注意力权重调节两者的贡献——最终输出 384×384 的 UV 特征图。

最关键的设计是自自适应融合(Self-Adaptive Fusion):

$$\boldsymbol{c}_k = w_k \cdot \hat{\boldsymbol{c}}_k + (1 - w_k) \cdot \boldsymbol{c}_k^{\text{aggr}}$$

每个 Gaussian 学习一个标量融合权重 \(w_k\),在"网络预测色"和"实际观察色"之间动态平衡:

  • 当该区域被多张图像覆盖时,\(w_k\) 偏小 → 倾向使用观察色(细节更真实)
  • 当该区域被遮挡或覆盖不足时,\(w_k\) 偏大 → 倾向使用预测色(更连贯)

完整超参数一览

补充材料中提供了详细的超参数配置,对复现至关重要:

模块超参数
输入/输出输入分辨率 / 渲染分辨率512×512
特征提取器DINOv3 版本ViT-L/16
特征尺寸\(\mathcal{N}\times 1024\times 1024\)
使用的中间层4, 11, 17, 23
Transformer隐藏维度 / 头数 / 层数1024 / 16 / 12
Learnable UV token 尺寸96×96×1024
UV DecoderGaussian 属性图尺寸384×384
DPT 内部维度 / MLP 维度256 / 512
MLP 层数 / 激活函数3 / SiLU
Gaussian偏移最大范围 / 缩放裁剪0.2 / 0.01
初始缩放 / 初始密度\(\exp(-5.0)\) / 0.1

关键看点:DINOv3 用的是 ViT-L/16(比常见的 ViT-B/16 更大),UV tokens 尺寸为 96×96=9216 个 learnable tokens,Transformer 有 12 层、1024 维、16 头,整体规模不小。

这是一种优雅的"soft selection"机制,比硬阈值或全局融合权重精细得多。

3.4 动画驱动:FLAME LBS + 3DGS 渲染

重建的 canonical Gaussian 头像通过 FLAME 的线性混合蒙皮(LBS)驱动动画:

$$\mathrm{I}_{\text{pred}} = \mathcal{R}(\operatorname{LBS}(\mathcal{G}, \Theta), \Pi)$$

其中 \(\Theta\) 是目标 FLAME pose + expression 参数,\(\Pi\) 是相机参数。渲染通过标准 differentiable Gaussian splatting rasterizer,达到 220 FPS,无需额外神经渲染器(与 GAGAvatar、GPAvatar 等需要额外网络做后处理的方法形成鲜明对比)。

Part 4 · 训练方法
Training Pipeline:四数据集联合训练

训练数据

UIKA 在四个数据集上联合训练:

  • VFHQ:高质量单目人脸视频,提供丰富的身份和表情多样性
  • HDTF:高分辨率 talking-head 视频,侧重语音驱动表情
  • NeRSemble-v2:多视角 studio 数据集,提供 3D 一致性监督
  • 合成数据集:UIKA 自建的大规模多视角合成数据(7500+ 身份,每身份 9 视角 × 13000+ 帧)

合成数据管线是 UIKA 的另一个亮点。传统多视角数据集(如 NeRSemble、RenderMe-360)受限于采集成本,身份数量少且多为 studio 光照,难以泛化到 in-the-wild 场景。UIKA 的解决方案:

flowchart TD
  A["SphereHead 3D 头部生成器"] --> B["每身份渲染 9 个固定视角"]
  B --> C["LivePortrait 2D 面部动画"]
  C --> D["同一 motion library 驱动所有视角"]
  D --> E["时间同步的多视角序列"]
  E --> F["7500+ 身份,含极端表情"]

先用 SphereHead #Li-et-al.-2024(在 in-the-wild 图像上训练的 3D 头生成器)渲染 9 个固定视角,再用 LivePortrait #Guo-et-al.-2024 从 motion library 中选取驱动视频统一驱动所有视角,生成时间同步的多视角序列。

合成数据集可视化
图:合成数据集示例。每行是一个身份在 9 个固定视角下的渲染结果,表情多样(来源:补充材料 Fig. synth_data)

合成数据集质量评估

补充材料中通过 Warping Error(WE)评估了合成数据质量:UIKA 的合成数据空间 WE 为 4.252×10⁻²,时间 WE 为 7.868×10⁻⁴,数值上接近真实采集的 NeRSemble-v2(2.377/4.605),远优于 CAP4D 合成数据(10.45/31.27)。这表明 UIKA 的合成管线在身份多样性、表情丰富度和多视图一致性之间取得了平衡。

数据处理

所有数据通过 VHAP tracker 提取 FLAME 2023 的 pose/expression 参数和相机参数,遵循 GaussianAvatars 的预处理协议。输入图像经过人脸检测、扩大 bbox、crop 到 512×512,并随机替换背景为黑/白/灰三色(一种简单但有效的 domain randomization)。

训练采样与损失函数

每次训练迭代,从同一视频随机采样 \(N_{\text{ref}} = 16\) 帧作为 source 输入(重建 canonical 表示),再采样 \(N_{\text{d}} = 8\) 帧作为 target views(驱动 + 监督)。

损失函数由四部分组成:

$$\mathcal{L} = \lambda_{\text{l1}}\mathcal{L}_{\text{l1}} + \lambda_{\text{lpips}}\mathcal{L}_{\text{lpips}} + \lambda_{\text{ssim}}\mathcal{L}_{\text{ssim}} + \lambda_{\text{reg}}\mathcal{L}_{\text{reg}}$$
$$\mathcal{L}_{\text{reg}} = \|\max(\boldsymbol{\Delta\mu}, \epsilon)\|_2$$

其中 \(\lambda_{\text{l1}} = 1.0\)\(\lambda_{\text{lpips}} = 1.0\)\(\lambda_{\text{ssim}} = 0.1\)\(\lambda_{\text{reg}} = 0.1\)。L1 + SSIM + LPIPS 的组合是 3DGS/NeRF 领域的标配,offset regularization 防止 Gaussian 飘离 FLAME 表面太远。

配置项披露状态
Transformer 架构12 层 MM-DiT,16 注意力头,D=1024完整披露
Learnable UV tokens9216 → reshape 96×96完整披露
UV 特征图分辨率384×384×256完整披露
最终 Gaussian 点数~130K完整披露
训练步数150K完整披露
优化器Adam + cosine warm-up LR schedule部分披露(β1/β2/weight decay 未给出)
训练硬件32 × NVIDIA H20 GPU完整披露
训练时间约 2 周完整披露
Batch size per GPU未披露未披露
模型总参数量未披露未披露
Part 5 · 推理方法
Inference Pipeline:一次前馈,220 FPS

UIKA 的推理链路极其简洁,这得益于其纯前馈设计——无需任何测试时优化或微调:

flowchart TD
  A["输入: 任意数量 Pose-Free 图像"] --> B["Facial Correspondence Estimator"]
  B --> C["颜色重投影 & UV 聚合"]
  C --> D["双空间特征提取 (DINOv3)"]
  D --> E["12 层 MM-DiT 双流注意力"]
  E --> F["UV Decoder 解码 Gaussian 属性"]
  F --> G["自自适应融合"]
  G --> H["Canonical 3DGS 头像"]
  H --> I["FLAME 参数驱动 LBS 动画"]
  I --> J["3DGS Rasterizer 渲染"]
  J --> K["输出: 220 FPS 实时渲染"]

推理速度是 UIKA 的一大亮点。与 GAGAvatar、GPAvatar 等方法需要额外神经渲染器做后处理不同,UIKA 的 Gaussian 头像直接通过标准 3DGS rasterizer 渲染,达到 220 FPS。对比之下,DiffusionRig 的推理需要约 30 分钟(per identity 微调 + 迭代去噪)。

动画驱动也非常简单:给定目标 FLAME pose 和 expression 参数,通过 LBS 将 canonical Gaussian 变换到 posed space,然后差分光栅化渲染即可。这意味着 UIKA 可以轻松集成到现有的面部捕捉 + 驱动管线中。

Part 6 · 实验验证
实验配置与结果:三个维度全面开花

实验配置

配置项披露状态
训练数据集VFHQ + HDTF + NeRSemble-v2 + 合成数据完整披露
测试集 (Monocular)VFHQ(50 clips) + NeRSemble-v2(25 identities)完整披露
测试集 (Multi-view)NeRSemble-v2(25 identities)完整披露
训练硬件32 × H20 GPU完整披露
推理硬件未披露(单卡即可)未完整披露
评估指标PSNR / SSIM / LPIPS / CSIM / AED / APD / AKD完整披露
FLAME TrackerVHAP完整披露
人脸检测GAGAvatar 方法完整披露

Monocular 设置:单图输入全面领先

在单图输入(monocular)设置下,UIKA 在所有指标上全面超越 GAGAvatar、LAM 和 Portrait4D-v2:

方法PSNR↑SSIM↑LPIPS↓CSIM↑AED↓APD↓
Portrait4D-v221.030.8590.1340.6880.0940.113
GAGAvatar20.340.8500.1600.6930.0710.075
LAM18.290.8100.2060.6020.1040.112
UIKA21.690.8670.1050.7380.0550.056

这些数字说明了什么?PSNR 提升 0.66(vs Portrait4D-v2)看起来不大,但 LPIPS 从 0.134 降到 0.105(↓22%)和 AED 从 0.094 降到 0.055(↓41%)说明 UIKA 在感知质量和表情精度上有质的飞跃。特别是 LAM 的 PSNR 只有 18.29——当 target view 与 source view 差异较大时,仅靠 screen attention 的模型确实撑不住。

UIKA comparison results
UIKA 与基线方法在 monocular 和 multi-view 设置下的定性对比。当 target view 与 source view 差异较大时,GAGAvatar 和 LAM 的渲染质量显著下降,而 UIKA 保持稳定(来源:UIKA 论文 Fig. comparison)

Multi-view 设置:多图输入优势更明显

在多视角输入设置下,UIKA 的优势进一步扩大:

方法PSNR↑SSIM↑LPIPS↓CSIM↑
DiffusionRig16.970.7680.3950.598
GPAvatar17.110.7830.3130.553
InvertAvatar16.350.7760.3940.449
UIKA22.500.8550.1200.740

PSNR 领先第二名 5.39 dB——这是巨大的差距。GPAvatar 和 InvertAvatar 虽然支持任意数量输入,但由于缺乏显式对应,多图信息聚合反而可能引入噪声。UIKA 的 UV 引导建模让输入图像越多,重建质量越好——这才是多视角输入的正确打开方式。

UIKA multi-view analysis
随着输入图像数量增加,UIKA 的重建质量持续提升:初始遮挡区域被填补(a),3D 一致性增强(b),渲染细节改善(c, d)(来源:UIKA 论文 Fig. view_analysis)

消融实验:每个组件都不可或缺

变体PSNR↑LPIPS↓AED↓
去掉合成数据21.860.0930.060
去掉 UV attention22.210.0910.056
去掉自自适应融合22.390.0880.059
UIKA 完整版22.610.0820.055

三个消融的发现:

  • 去掉合成数据掉点最多(-0.75 PSNR),说明大规模多视角合成数据对模型的 3D 一致性至关重要
  • 去掉 UV attention 掉 0.40 PSNR,主要损失在细节(缺乏结构化全局信息)
  • 去掉自自适应融合 掉 0.22 PSNR,颜色连贯性下降
UIKA ablation study
消融实验定性对比:去掉各组件后渲染质量的变化(来源:UIKA 论文 Fig. ablation)

In-the-Wild 泛化

UIKA 在 out-of-domain 数据上也展现了良好的泛化能力,包括 Ava-256 数据集和互联网 in-the-wild 图像。

UIKA in-the-wild results
UIKA 在 in-the-wild 场景下的泛化表现(来源:UIKA 论文 Fig. wild)

补充消融:训练数据规模与 Self-Adaptive Fusion

补充材料中提供了两个额外消融,进一步揭示了方法的关键因素:

训练数据消融(来源:补充材料 Fig. abla_data):只用 NeRSemble-v2 训练时,模型几乎无法保留身份信息;加入 VFHQ 后泛化到新身份但极端视角会崩溃;加入合成数据后,身份保持和 3D 一致性都达到最佳。这说明大规模多视角合成数据是 UIKA 泛化能力的关键支柱。
训练数据消融
图:训练数据消融实验。从左到右:仅 NeRSemble-v2 → +VFHQ → +合成数据(来源:补充材料 Fig. abla_data)
Self-Adaptive Fusion 消融(来源:补充材料 Fig. abla_method):将学习到的 per-Gaussian 融合权重 \(w_k\) 替换为固定值 \(0.5 \times \gamma_{\text{aggr}}\) 后,重建质量明显下降。这证明让网络自主学习每个 Gaussian 的融合策略比手工规则更有效。
方法消融
图:补充消融实验,包含 Self-Adaptive Fusion 的固定权重 vs 学习权重的对比(来源:补充材料 Fig. abla_method)

补充对比结果

补充材料中给出了 Monocular 和 Multi-view 设置下的更多可视化对比。在 Monocular 设置下,UIKA 在 VFHQ 和 NeRSemble-v2 上都展现了更强的身份保持和更自然的细节;Multi-view 设置下,随着输入图像增多,优势进一步扩大。

Monocular 补充对比
图:Monocular 设置下 VFHQ 和 NeRSemble-v2 的补充对比结果(来源:补充材料 Fig. comp_suppl)
Multi-view 补充对比
图:Multi-view 设置下 NeRSemble-v2 的补充对比结果(来源:补充材料 Fig. mv_comp_suppl)

User Study:人类评测也第一

除了定量指标,UIKA 还进行了用户研究(评分 1-5)。在渲染质量(4.37 vs 次优 3.48)、运动一致性(4.17 vs 3.45)和身份保持(4.23 vs 3.54)三个维度上,UIKA 以显著优势领先所有 baseline。这比 PSNR/LPIPS 更能说明问题——用户的眼睛不会骗人。

延迟分析:推理到底有多快?

补充材料中给出了详细的延迟分析。View-Dependent 模块(UV 预测 + Transformer + Decoder)的推理时间随输入图像数 \(N\)\(O(N^2)\) 增长(受 self-attention 限制):1 张图 1.96s,4 张 3.57s,16 张 12.8s,32 张 32.9s。View-Independent 模块(LBS + 渲染)仅需 5ms(3ms LBS + 2ms 渲染)。总延迟在秒级,远快于需要测试时优化的方法。

应用展示:从文本到可驱动头像

补充材料还展示了两个有趣的应用:

In-the-Wild 图像重演:UIKA 可以处理互联网上的野生图像,包括卡通风格、素描等非写实风格,证明其泛化能力远超训练数据分布。
In-the-wild 应用
图:In-the-wild 图像重演结果,涵盖多种视觉风格(来源:补充材料 Fig. apps_image)
Text-to-Head-Avatar:用 ChatGPT/Gemini 等大模型根据文本描述生成图像,再送入 UIKA 生成可驱动的 3D 头像——这是一个完整的"文本→可驱动数字人"pipeline。
文本到头像生成
图:Text-to-Head-Avatar 生成管线(来源:补充材料 Fig. apps_text)
Part 7 · 讨论与启发
在地图上的位置,以及我们能带走什么

与核心竞品的技术对比

维度UIKAGAGAvatarLAMGPAvatar
核心表示3DGS 直接渲染3DGS + 神经渲染器3DGS + 神经渲染器NeRF(慢)
跨帧对应UV 显式对应
注意力Screen + UV 双流Screen onlyScreen onlyScreen only
输入灵活性任意数量1 张1 张任意数量
推理速度220 FPS需神经渲染器需神经渲染器慢(NeRF)

局限性

  • FLAME 拓扑依赖:FLAME 模型本身无法表达皱纹、微表情和舌头运动等细粒度面部动态,且头发、胡须、配饰等非皮肤区域无法重建。这是所有 FLAME-based 方法的共同局限。
  • 极端侧脸退化:当输入图像只覆盖人脸的一小部分(如纯侧脸),correspondence estimator 可能预测不准,导致 UV 聚合不完整。
  • 合成数据偏差:SphereHead + LivePortrait 生成的合成数据虽然规模大,但与真实数据之间仍存在分布偏移,可能影响极端 in-the-wild 场景的表现。
  • 对应估计器是关键瓶颈:整个 Pipeline 的质量上限取决于 correspondence estimator 的精度——如果 UV 坐标预测错误,后续所有步骤都会受影响。
  • 计算成本随输入数量增长:虽然支持任意数量输入,但 View-Dependent 模块的延迟随 \(N\)\(O(N^2)\) 增长,32 张图需要 32.9s,且性能提升在超过一定数量后趋于饱和。

我们能带走的启发

1. UV 引导思想可以迁移:不只是人头,任何具有参数化模型的 3D 对象(人手、人体、动物面部)都可以用类似的 UV 引导策略做多视角聚合。这是本文最值得借鉴的元思想。

2. 合成数据是 Feed-Forward 模型的燃料:UIKA 的消融实验清楚地表明,大规模合成数据对模型性能至关重要。7500+ 身份 × 9 视角 × 13000+ 帧的规模远超任何真实采集数据集的覆盖范围。对于数字人方向的从业者,建立自己的合成数据管线可能是 ROI 最高的投入。

3. 双流注意力比单流更强大:Screen attention 抓细节,UV attention 抓结构——这种"互补双流"的设计模式可以推广到其他需要多源信息融合的任务中。

4. 220 FPS 意味着什么:不需要神经渲染器意味着 UIKA 可以在移动端部署。对于钉钉会议等实时通信场景,这是一项关键能力。

References
参考来源

论文与代码

  • Wu, Z., Zhou, B., Hu, L., Liu, H., Sun, Y., Wang, X., Cao, X., Shen, Y., & Zhu, H. (2026). UIKA: Fast Universal Head Avatar from Pose-Free Images. CVPR 2026 Highlight.

    arXiv:2601.07603
  • Giebenhain, S., Kirschstein, T., Rünz, M., Agapito, L., & Nießner, M. (2026). Pixel3DMM: Versatile Screen-Space Priors for Single-Image 3D Face Reconstruction. ICLR 2026.

  • Chu, X. & Harada, T. (2024). Generalizable and Animatable Gaussian Head Avatar. NeurIPS 2024.

  • He, Y. et al. (2025). LAM: Large Avatar Model for One-Shot Animatable Gaussian Head. SIGGRAPH 2025 Conference Papers.

  • Esser, P. et al. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis. ICML 2024.

  • Li, et al. (2024). SphereHead: 3D Head Generation Model. 用于 UIKA 合成数据管线中的多视角渲染。

  • Guo, J. et al. (2024). LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control. arXiv:2407.03168.

  • Kerbl, B. et al. (2023). 3D Gaussian Splatting for Real-Time Radiance Field Rendering. ACM SIGGRAPH 2023.