数字人论文精读（二十四）：UIKA，任意数量 Pose-Free 图像的前馈式通用头部头像

2026/06/15 16:11:09

数字人 UIKA 论文精读 3D Gaussian Splatting Head Avatar

Part 1 · 引言

为什么 Feed-Forward 通用头部头像很重要

想象一下：你只需要用手机自拍一张照片，AI 就能在几秒内生成一个 3D 数字分身——这个分身可以从任意角度观看，能做出任何表情，还能以 220 FPS 实时渲染。这不是科幻，而是 CVPR 2026 Highlight 论文 UIKA 做到的事情。

在远程会议、影视制作、VR/AR 等场景中，创建逼真的 3D 头部头像一直是核心需求。传统方法需要专业级多视角相机阵列 + 长时间的逐身份优化训练，成本高昂且无法泛化。近年来，前馈式（feed-forward）方法开始兴起——它们试图从一张或几张图片中"一次前馈"直接生成头像，无需逐身份训练。但现有方法要么只支持单图输入（大视角下退化严重），要么要求固定数量输入（如必须恰好 4 张），要么虽然支持任意数量却缺乏跨帧的显式对应关系。

UIKA 的答案是：用 UV 映射作为"通用语言"来连接不同视角和表情的图像。通过面部对应估计，它把每张输入图像的像素对齐到 canonical UV 空间，再通过创新的双流注意力（screen + UV）和自自适应融合策略，生成高质量、可实时驱动的 3D Gaussian 头部头像。

论文地址：https://arxiv.org/abs/2601.07603 | 代码：https://github.com/zijian-wu/uika | 项目页：https://zijian-wu.github.io/uika-page/

UIKA 支持从任意数量（单张到多张）的 pose-free 输入图像中一次前馈重建可动画驱动的 3D Gaussian 头部头像（来源：UIKA 论文 teaser）

Part 2 · 问题剖析

从"逐身份优化"到"一次前馈"的鸿沟

要理解 UIKA 的价值，我们首先需要看清当前方法的格局与缺口。下表展示了 UIKA 与 SOTA 方法在三个关键维度上的对比：

方法	输入数量	前馈 (FF)	Pose-Free (PF)	实时动画 (RTA)
GAGAvatar	1	✓	✓	✓
LAM	1	✓	✓	✓
Avat3r	4	✓	✗	✗
GPAvatar	≥1	✓	✓	✗
InvertAvatar	≥1	✗	✗	✗
DiffusionRig	≥1	✗	✗	✗
UIKA	≥1	✓	✓	✓

可以看到，没有任何已有方法在全部四个维度上同时满足：GAGAvatar 和 LAM 虽然支持单图前馈，但大视角下渲染质量显著退化；Avat3r 虽然支持多视角，但要求固定 4 张输入且需要相机标定；GPAvatar 和 PF-LHM 支持任意数量输入，但缺乏跨帧的显式对应关系，导致多视角信息聚合不够可靠——甚至输入图像越多，效果反而可能退化。

反直觉的发现是：问题的核心不在于"多接收几张图"，而在于"如何让不同视角的像素对上号"。不同视角、不同表情的图像在 screen space 中天然没有对齐——左上角的一个像素在第一张图里是左眼，在第二张图里可能是额头。这就是为什么简单地把多张图的特征 concat 起来做 attention 效果有限。

UIKA 的核心洞察：如果能把每张图的人脸像素映射到同一个 canonical UV 空间，就自然解决了跨帧对齐问题。UV 映射是人脸参数化模型的天然属性——FLAME 模型已经定义了每个人脸三角形在 UV 空间中的位置。只要知道每个像素的 UV 坐标，就能把不同图像的像素"汇聚"到同一个 UV 画布上。

什么是 Canonical UV 空间？

UV 空间是 3D 人脸模型（如 FLAME）的二维参数化展开——就像把地球仪摊平成一张世界地图。每个三维人脸顶点都对应 UV 空间中的一个 $$(u,v)$$ 坐标，这个映射对所有人脸模型是固定的。

Canonical 意味着这个 UV 空间是"标准姿态"下的——不做任何表情、不偏转任何角度。不管输入图像里的人是什么表情、什么角度，只要我们知道每个像素对应 canonical UV 空间的哪个位置，就能把不同图像的内容"贴"到同一张标准地图上，实现跨帧对齐。

类比：不同角度拍的建筑照片，只要知道每张照片的像素对应建筑 CAD 模型的哪个面，就能把所有照片拼成一张完整的建筑立面图。UV 空间就是人脸的"标准 CAD 图纸"。

Part 3 · 模型结构与创新

UV 引导的通用头部头像 Pipeline

UIKA 的完整 Pipeline 分为五个阶段，如架构图所示：

UIKA 整体 Pipeline：面部对应估计 → 颜色重投影与聚合 → 双空间特征提取 → 双流注意力 Transformer → UV Decoder + 自自适应融合（来源：UIKA 论文 Fig. pipeline）

3.1 面部对应估计与颜色重投影

Pipeline 的第一阶段是面部对应估计器（Facial Correspondence Estimator）。给定任意数量 $$N$$ 张 pose-free 输入图像 $\{\mathrm{I}^i_{\text{s}}\}_{i=1}^N$ ，它逐像素预测 UV 坐标：

\mathrm{U}^i = \mathcal{U}(\mathrm{I}^i_{\text{s}}), \quad i \in [1, N]

其中 $\mathrm{U}^i = (u, v) \in [0,1]^2$ 是像素级 UV 坐标， $\mathcal{U}$ 采用 frozen DINOv3 编码器 + 可训练 DPT head 的架构，受 Pixel3DMM 启发 #Giebenhain-et-al.-2026。

什么是 DPT 架构？传入 DPT 的是什么？

DPT（Dense Prediction Transformer）是一种将 ViT（Vision Transformer）从图像分类改造为密集预测任务（如深度估计、语义分割）的架构。它的核心思想是：ViT 在全局 self-attention 过程中天然保留了空间信息，DPT 通过将不同层的 token 重组为多尺度特征图，再融合上采样，就能输出与原图分辨率一致的密集预测结果。

在 UIKA 中，数据流是：输入图像 → frozen DINOv3 编码器 → patch tokens（特征序列）→ 可训练的 DPT head → 像素级 UV 坐标。DINOv3 把 512×512 的输入图像编码为一组 patch 级别的特征向量，DPT head 接收这些特征，通过重组和上采样，最终输出每个像素在 canonical UV 空间中的 $$(u,v)$$ 坐标。DINOv3 是冻结的（不参与训练），只训练 DPT head 和后续的轻量 CNN fusion 模块，这样既利用了预训练模型的强大视觉表征，又大幅降低了训练开销。

对应估计器的详细架构

补充材料中给出了对应估计器 $\mathcal{U}$ 的完整网络结构。它由三部分组成：

Frozen DINOv3 ViT-L/16：提取 patch 级特征，输出 $\mathcal{N} \times 1024 \times 1024$ 的特征（ $\mathcal{N}$ 为输入图像数）。
4 层交替 Attention：受 VGGT 启发，交替使用 Frame Attention（单帧内 self-attention，捕获帧内空间关系）和 Global Attention（跨所有帧 attention，建立帧间对应）。这种层次化设计让网络既能理解局部人脸结构，又能推理全局多视图一致性。
可训练 DPT Head：将多尺度特征融合后输出 2 通道 UV 坐标图 $(\in [0,1])$ ，再乘以输入图像 mask 提取有效人脸区域。

图：面部对应估计器网络详细架构（来源：补充材料 Fig. uv_pred_net）

图：UIKA 与 Pixel3DMM 的 UV 坐标预测对比。UIKA 在边界区域（尤其是头发周围）更平滑，这对后续颜色重投影至关重要（来源：补充材料 Fig. uv_pred_res）

有了 UV 坐标，就可以把每张输入图像从 screen space 重投影到 UV space：

\mathrm{I}^i_{\text{uv}} = \operatorname{Reproj}(\mathrm{I}^i_{\text{s}}, \mathrm{U}^i)

然后对所有重投影图像做逐像素平均，得到聚合 UV 图像 $\mathrm{I}_{\text{aggr}}$ 和置信度图 $\gamma_{\text{aggr}}$ ：

\mathrm{I}_{\text{aggr}}, \gamma_{\text{aggr}} \leftarrow \operatorname{Aggr}(\mathrm{I}^1_{\text{uv}}, \ldots, \mathrm{I}^N_{\text{uv}})

置信度的计算方式很巧妙： $\gamma_{\text{aggr}} = \operatorname{Norm}(\log(1 + n_{\text{hit}}))$ ，其中 $n_{\text{hit}}$ 是该 UV 像素被多少张输入图像"命中"。用 log 压制高频区域（如正脸）的主导地位，让侧脸区域也能获得合理的置信度。

直觉：UV 映射就像把人脸"摊平"成一张标准地图。每张输入图像在这张地图上覆盖一部分区域，聚合后就能得到"这个人长什么样"的完整信息。

3.2 双流注意力：Screen + UV

这是 UIKA 最核心的创新。已有方法（如 LAM、GPAvatar）只用 screen space 的 cross-attention——learnable tokens 只与原始图像的特征交互，缺乏结构化对应关系。

UIKA 在标准 screen attention 之外，增加了一个 UV attention 分支：

\Delta \mathcal{Z}_{\text{j}}, \Delta \mathcal{F}_{\text{j}} = \operatorname{Attn}_{\text{j}}(\mathcal{Z}, \mathcal{F}_{\text{j}}), \quad \text{j} \in \{\text{s}, \text{uv}\}

\mathcal{Z}' = \mathcal{Z} + \operatorname{MLP}(\mathcal{Z} + \Delta \mathcal{Z}_{\text{s}} + \Delta \mathcal{Z}_{\text{uv}})

这里 $\mathcal{Z}$ 是 learnable UV tokens（9216 个，reshape 为 96×96 网格）， $\mathcal{F}_{\text{s}}$ 和 $\mathcal{F}_{\text{uv}}$ 分别是 screen 和 UV 空间的多尺度特征（由 frozen DINOv3 + 轻量 CNN fusion 模块提取）。

两个 attention 分支的增量直接相加——screen attention 提供局部细节（纹理、边缘），UV attention 提供结构化全局上下文（人脸拓扑、语义区域）。12 层 MM-DiT Transformer 块 #Esser-et-al.-2024 在每个 block 中同时执行两种 attention。

为什么不只做 UV attention？因为 UV 重投影过程中会丢失一些高频细节（如皱纹、毛孔），screen attention 保留了原始图像的细粒度信息，两者互补。

3.3 UV Decoder 与自自适应融合

从 Transformer 的 4 个深度层（ $$l=3,6,9,12$$ ）取出 UV tokens，与聚合 UV 图 $\mathrm{I}_{\text{aggr}}$ 和置信度 $\gamma_{\text{aggr}}$ 一起送入 UV Decoder：

\{\hat{\boldsymbol{c}}_k, w_k, o_k, \boldsymbol{\Delta\mu}_k, \boldsymbol{s}_k, \boldsymbol{r}_k\}_{k=1}^M = \mathcal{D}(\mathcal{Z}^l; \mathrm{I}_{\text{aggr}}, \gamma_{\text{aggr}})

Decoder 采用 DPT 架构，输出 384×384 的 UV 特征图。通过 FLAME UV rasterization 获取有效 UV mask，从中采样约 130K 个点，经 2 层 FC + per-attribute MLP 解码为 Gaussian 属性。

送入 UV Decoder 的三样东西

UV Decoder 的输入来自三个来源，汇聚了前序所有阶段的成果：

$\mathcal{Z}^l$ （多层 UV tokens）：从 Transformer 的 $$l=3,6,9,12$$ 四个深度层取出的 learnable UV tokens（9216 个，reshape 为 96×96 网格）。这些 tokens 经过 12 层 screen + UV 双流 attention 的反复提炼，已经融合了输入图像的全部语义信息——浅层保留局部细节，深层编码全局结构。
$\mathrm{I}_{\text{aggr}}$ （聚合 UV 图像）：来自 Phase 1 的颜色重投影与聚合阶段。所有输入图像通过 UV 坐标映射后逐像素平均，得到一张"摊平的人脸纹理图"。它提供了来自真实图像的观测色彩，补足网络预测色可能缺失的细节。
$\gamma_{\text{aggr}}$ （置信度图）：同样来自聚合阶段，记录每个 UV 像素被多少张输入图像"命中"。它告诉 Decoder 哪些区域观测充分（可信度高）、哪些区域观测不足（需要网络预测来补）。

这三者通过 DPT 架构融合：tokens 提供语义信息， $\mathrm{I}_{\text{aggr}}$ 提供观测色彩， $\gamma_{\text{aggr}}$ 作为注意力权重调节两者的贡献——最终输出 384×384 的 UV 特征图。

最关键的设计是自自适应融合（Self-Adaptive Fusion）：

\boldsymbol{c}_k = w_k \cdot \hat{\boldsymbol{c}}_k + (1 - w_k) \cdot \boldsymbol{c}_k^{\text{aggr}}

每个 Gaussian 学习一个标量融合权重 $$w_k$$ ，在"网络预测色"和"实际观察色"之间动态平衡：

当该区域被多张图像覆盖时， $$w_k$$ 偏小 → 倾向使用观察色（细节更真实）

当该区域被遮挡或覆盖不足时， $$w_k$$ 偏大 → 倾向使用预测色（更连贯）

完整超参数一览

补充材料中提供了详细的超参数配置，对复现至关重要：

模块	超参数	值
输入/输出	输入分辨率 / 渲染分辨率	512×512
特征提取器	DINOv3 版本	ViT-L/16
	特征尺寸	$\mathcal{N}\times 1024\times 1024$
	使用的中间层	4, 11, 17, 23
Transformer	隐藏维度 / 头数 / 层数	1024 / 16 / 12
	Learnable UV token 尺寸	96×96×1024
UV Decoder	Gaussian 属性图尺寸	384×384
	DPT 内部维度 / MLP 维度	256 / 512
	MLP 层数 / 激活函数	3 / SiLU
Gaussian	偏移最大范围 / 缩放裁剪	0.2 / 0.01
	初始缩放 / 初始密度	$\exp(-5.0)$ / 0.1

关键看点：DINOv3 用的是 ViT-L/16（比常见的 ViT-B/16 更大），UV tokens 尺寸为 96×96=9216 个 learnable tokens，Transformer 有 12 层、1024 维、16 头，整体规模不小。

这是一种优雅的"soft selection"机制，比硬阈值或全局融合权重精细得多。

3.4 动画驱动：FLAME LBS + 3DGS 渲染

重建的 canonical Gaussian 头像通过 FLAME 的线性混合蒙皮（LBS）驱动动画：

\mathrm{I}_{\text{pred}} = \mathcal{R}(\operatorname{LBS}(\mathcal{G}, \Theta), \Pi)

其中 $\Theta$ 是目标 FLAME pose + expression 参数， $\Pi$ 是相机参数。渲染通过标准 differentiable Gaussian splatting rasterizer，达到 220 FPS，无需额外神经渲染器（与 GAGAvatar、GPAvatar 等需要额外网络做后处理的方法形成鲜明对比）。

Part 4 · 训练方法

Training Pipeline：四数据集联合训练

训练数据

UIKA 在四个数据集上联合训练：

VFHQ：高质量单目人脸视频，提供丰富的身份和表情多样性

HDTF：高分辨率 talking-head 视频，侧重语音驱动表情

NeRSemble-v2：多视角 studio 数据集，提供 3D 一致性监督

合成数据集：UIKA 自建的大规模多视角合成数据（7500+ 身份，每身份 9 视角 × 13000+ 帧）

合成数据管线是 UIKA 的另一个亮点。传统多视角数据集（如 NeRSemble、RenderMe-360）受限于采集成本，身份数量少且多为 studio 光照，难以泛化到 in-the-wild 场景。UIKA 的解决方案：

flowchart TD
  A["SphereHead 3D 头部生成器"] --> B["每身份渲染 9 个固定视角"]
  B --> C["LivePortrait 2D 面部动画"]
  C --> D["同一 motion library 驱动所有视角"]
  D --> E["时间同步的多视角序列"]
  E --> F["7500+ 身份，含极端表情"]

先用 SphereHead #Li-et-al.-2024（在 in-the-wild 图像上训练的 3D 头生成器）渲染 9 个固定视角，再用 LivePortrait #Guo-et-al.-2024 从 motion library 中选取驱动视频统一驱动所有视角，生成时间同步的多视角序列。

图：合成数据集示例。每行是一个身份在 9 个固定视角下的渲染结果，表情多样（来源：补充材料 Fig. synth_data）

合成数据集质量评估

补充材料中通过 Warping Error（WE）评估了合成数据质量：UIKA 的合成数据空间 WE 为 4.252×10⁻²，时间 WE 为 7.868×10⁻⁴，数值上接近真实采集的 NeRSemble-v2（2.377/4.605），远优于 CAP4D 合成数据（10.45/31.27）。这表明 UIKA 的合成管线在身份多样性、表情丰富度和多视图一致性之间取得了平衡。

数据处理

所有数据通过 VHAP tracker 提取 FLAME 2023 的 pose/expression 参数和相机参数，遵循 GaussianAvatars 的预处理协议。输入图像经过人脸检测、扩大 bbox、crop 到 512×512，并随机替换背景为黑/白/灰三色（一种简单但有效的 domain randomization）。

训练采样与损失函数

每次训练迭代，从同一视频随机采样 $N_{\text{ref}} = 16$ 帧作为 source 输入（重建 canonical 表示），再采样 $N_{\text{d}} = 8$ 帧作为 target views（驱动 + 监督）。

损失函数由四部分组成：

\mathcal{L} = \lambda_{\text{l1}}\mathcal{L}_{\text{l1}} + \lambda_{\text{lpips}}\mathcal{L}_{\text{lpips}} + \lambda_{\text{ssim}}\mathcal{L}_{\text{ssim}} + \lambda_{\text{reg}}\mathcal{L}_{\text{reg}}

\mathcal{L}_{\text{reg}} = \|\max(\boldsymbol{\Delta\mu}, \epsilon)\|_2

其中 $\lambda_{\text{l1}} = 1.0$ 、 $\lambda_{\text{lpips}} = 1.0$ 、 $\lambda_{\text{ssim}} = 0.1$ 、 $\lambda_{\text{reg}} = 0.1$ 。L1 + SSIM + LPIPS 的组合是 3DGS/NeRF 领域的标配，offset regularization 防止 Gaussian 飘离 FLAME 表面太远。

配置项	值	披露状态
Transformer 架构	12 层 MM-DiT，16 注意力头，D=1024	完整披露
Learnable UV tokens	9216 → reshape 96×96	完整披露
UV 特征图分辨率	384×384×256	完整披露
最终 Gaussian 点数	~130K	完整披露
训练步数	150K	完整披露
优化器	Adam + cosine warm-up LR schedule	部分披露（β1/β2/weight decay 未给出）
训练硬件	32 × NVIDIA H20 GPU	完整披露
训练时间	约 2 周	完整披露
Batch size per GPU	未披露	未披露
模型总参数量	未披露	未披露

Part 5 · 推理方法

Inference Pipeline：一次前馈，220 FPS

UIKA 的推理链路极其简洁，这得益于其纯前馈设计——无需任何测试时优化或微调：

flowchart TD
  A["输入: 任意数量 Pose-Free 图像"] --> B["Facial Correspondence Estimator"]
  B --> C["颜色重投影 & UV 聚合"]
  C --> D["双空间特征提取 (DINOv3)"]
  D --> E["12 层 MM-DiT 双流注意力"]
  E --> F["UV Decoder 解码 Gaussian 属性"]
  F --> G["自自适应融合"]
  G --> H["Canonical 3DGS 头像"]
  H --> I["FLAME 参数驱动 LBS 动画"]
  I --> J["3DGS Rasterizer 渲染"]
  J --> K["输出: 220 FPS 实时渲染"]

推理速度是 UIKA 的一大亮点。与 GAGAvatar、GPAvatar 等方法需要额外神经渲染器做后处理不同，UIKA 的 Gaussian 头像直接通过标准 3DGS rasterizer 渲染，达到 220 FPS。对比之下，DiffusionRig 的推理需要约 30 分钟（per identity 微调 + 迭代去噪）。

动画驱动也非常简单：给定目标 FLAME pose 和 expression 参数，通过 LBS 将 canonical Gaussian 变换到 posed space，然后差分光栅化渲染即可。这意味着 UIKA 可以轻松集成到现有的面部捕捉 + 驱动管线中。

Part 6 · 实验验证

实验配置与结果：三个维度全面开花

实验配置

配置项	值	披露状态
训练数据集	VFHQ + HDTF + NeRSemble-v2 + 合成数据	完整披露
测试集 (Monocular)	VFHQ（50 clips） + NeRSemble-v2（25 identities）	完整披露
测试集 (Multi-view)	NeRSemble-v2（25 identities）	完整披露
训练硬件	32 × H20 GPU	完整披露
推理硬件	未披露（单卡即可）	未完整披露
评估指标	PSNR / SSIM / LPIPS / CSIM / AED / APD / AKD	完整披露
FLAME Tracker	VHAP	完整披露
人脸检测	GAGAvatar 方法	完整披露

Monocular 设置：单图输入全面领先

在单图输入（monocular）设置下，UIKA 在所有指标上全面超越 GAGAvatar、LAM 和 Portrait4D-v2：

方法	PSNR↑	SSIM↑	LPIPS↓	CSIM↑	AED↓	APD↓
Portrait4D-v2	21.03	0.859	0.134	0.688	0.094	0.113
GAGAvatar	20.34	0.850	0.160	0.693	0.071	0.075
LAM	18.29	0.810	0.206	0.602	0.104	0.112
UIKA	21.69	0.867	0.105	0.738	0.055	0.056

这些数字说明了什么？PSNR 提升 0.66（vs Portrait4D-v2）看起来不大，但 LPIPS 从 0.134 降到 0.105（↓22%）和 AED 从 0.094 降到 0.055（↓41%）说明 UIKA 在感知质量和表情精度上有质的飞跃。特别是 LAM 的 PSNR 只有 18.29——当 target view 与 source view 差异较大时，仅靠 screen attention 的模型确实撑不住。

UIKA 与基线方法在 monocular 和 multi-view 设置下的定性对比。当 target view 与 source view 差异较大时，GAGAvatar 和 LAM 的渲染质量显著下降，而 UIKA 保持稳定（来源：UIKA 论文 Fig. comparison）

Multi-view 设置：多图输入优势更明显

在多视角输入设置下，UIKA 的优势进一步扩大：

方法	PSNR↑	SSIM↑	LPIPS↓	CSIM↑
DiffusionRig	16.97	0.768	0.395	0.598
GPAvatar	17.11	0.783	0.313	0.553
InvertAvatar	16.35	0.776	0.394	0.449
UIKA	22.50	0.855	0.120	0.740

PSNR 领先第二名 5.39 dB——这是巨大的差距。GPAvatar 和 InvertAvatar 虽然支持任意数量输入，但由于缺乏显式对应，多图信息聚合反而可能引入噪声。UIKA 的 UV 引导建模让输入图像越多，重建质量越好——这才是多视角输入的正确打开方式。

随着输入图像数量增加，UIKA 的重建质量持续提升：初始遮挡区域被填补（a），3D 一致性增强（b），渲染细节改善（c, d）（来源：UIKA 论文 Fig. view_analysis）

消融实验：每个组件都不可或缺

变体	PSNR↑	LPIPS↓	AED↓
去掉合成数据	21.86	0.093	0.060
去掉 UV attention	22.21	0.091	0.056
去掉自自适应融合	22.39	0.088	0.059
UIKA 完整版	22.61	0.082	0.055

三个消融的发现：

去掉合成数据掉点最多（-0.75 PSNR），说明大规模多视角合成数据对模型的 3D 一致性至关重要

去掉 UV attention 掉 0.40 PSNR，主要损失在细节（缺乏结构化全局信息）

去掉自自适应融合 掉 0.22 PSNR，颜色连贯性下降

消融实验定性对比：去掉各组件后渲染质量的变化（来源：UIKA 论文 Fig. ablation）

In-the-Wild 泛化

UIKA 在 out-of-domain 数据上也展现了良好的泛化能力，包括 Ava-256 数据集和互联网 in-the-wild 图像。

UIKA 在 in-the-wild 场景下的泛化表现（来源：UIKA 论文 Fig. wild）

补充消融：训练数据规模与 Self-Adaptive Fusion

补充材料中提供了两个额外消融，进一步揭示了方法的关键因素：

训练数据消融（来源：补充材料 Fig. abla_data）：只用 NeRSemble-v2 训练时，模型几乎无法保留身份信息；加入 VFHQ 后泛化到新身份但极端视角会崩溃；加入合成数据后，身份保持和 3D 一致性都达到最佳。这说明大规模多视角合成数据是 UIKA 泛化能力的关键支柱。

图：训练数据消融实验。从左到右：仅 NeRSemble-v2 → +VFHQ → +合成数据（来源：补充材料 Fig. abla_data）

Self-Adaptive Fusion 消融（来源：补充材料 Fig. abla_method）：将学习到的 per-Gaussian 融合权重

\(w_k\)

替换为固定值

0.5 \times \gamma_{\text{aggr}}

后，重建质量明显下降。这证明让网络自主学习每个 Gaussian 的融合策略比手工规则更有效。

图：补充消融实验，包含 Self-Adaptive Fusion 的固定权重 vs 学习权重的对比（来源：补充材料 Fig. abla_method）

补充对比结果

补充材料中给出了 Monocular 和 Multi-view 设置下的更多可视化对比。在 Monocular 设置下，UIKA 在 VFHQ 和 NeRSemble-v2 上都展现了更强的身份保持和更自然的细节；Multi-view 设置下，随着输入图像增多，优势进一步扩大。

图：Monocular 设置下 VFHQ 和 NeRSemble-v2 的补充对比结果（来源：补充材料 Fig. comp_suppl）

图：Multi-view 设置下 NeRSemble-v2 的补充对比结果（来源：补充材料 Fig. mv_comp_suppl）

User Study：人类评测也第一

除了定量指标，UIKA 还进行了用户研究（评分 1-5）。在渲染质量（4.37 vs 次优 3.48）、运动一致性（4.17 vs 3.45）和身份保持（4.23 vs 3.54）三个维度上，UIKA 以显著优势领先所有 baseline。这比 PSNR/LPIPS 更能说明问题——用户的眼睛不会骗人。

延迟分析：推理到底有多快？

补充材料中给出了详细的延迟分析。View-Dependent 模块（UV 预测 + Transformer + Decoder）的推理时间随输入图像数 $$N$$ 呈 $$O(N^2)$$ 增长（受 self-attention 限制）：1 张图 1.96s，4 张 3.57s，16 张 12.8s，32 张 32.9s。View-Independent 模块（LBS + 渲染）仅需 5ms（3ms LBS + 2ms 渲染）。总延迟在秒级，远快于需要测试时优化的方法。

应用展示：从文本到可驱动头像

补充材料还展示了两个有趣的应用：

In-the-Wild 图像重演：UIKA 可以处理互联网上的野生图像，包括卡通风格、素描等非写实风格，证明其泛化能力远超训练数据分布。

图：In-the-wild 图像重演结果，涵盖多种视觉风格（来源：补充材料 Fig. apps_image）

Text-to-Head-Avatar：用 ChatGPT/Gemini 等大模型根据文本描述生成图像，再送入 UIKA 生成可驱动的 3D 头像——这是一个完整的"文本→可驱动数字人"pipeline。

图：Text-to-Head-Avatar 生成管线（来源：补充材料 Fig. apps_text）

Part 7 · 讨论与启发

在地图上的位置，以及我们能带走什么

与核心竞品的技术对比

维度	UIKA	GAGAvatar	LAM	GPAvatar
核心表示	3DGS 直接渲染	3DGS + 神经渲染器	3DGS + 神经渲染器	NeRF（慢）
跨帧对应	UV 显式对应	无	无	无
注意力	Screen + UV 双流	Screen only	Screen only	Screen only
输入灵活性	任意数量	1 张	1 张	任意数量
推理速度	220 FPS	需神经渲染器	需神经渲染器	慢（NeRF）

局限性

FLAME 拓扑依赖：FLAME 模型本身无法表达皱纹、微表情和舌头运动等细粒度面部动态，且头发、胡须、配饰等非皮肤区域无法重建。这是所有 FLAME-based 方法的共同局限。

极端侧脸退化：当输入图像只覆盖人脸的一小部分（如纯侧脸），correspondence estimator 可能预测不准，导致 UV 聚合不完整。

合成数据偏差：SphereHead + LivePortrait 生成的合成数据虽然规模大，但与真实数据之间仍存在分布偏移，可能影响极端 in-the-wild 场景的表现。

对应估计器是关键瓶颈：整个 Pipeline 的质量上限取决于 correspondence estimator 的精度——如果 UV 坐标预测错误，后续所有步骤都会受影响。

计算成本随输入数量增长：虽然支持任意数量输入，但 View-Dependent 模块的延迟随 $$N$$ 呈 $$O(N^2)$$ 增长，32 张图需要 32.9s，且性能提升在超过一定数量后趋于饱和。

我们能带走的启发

1. UV 引导思想可以迁移：不只是人头，任何具有参数化模型的 3D 对象（人手、人体、动物面部）都可以用类似的 UV 引导策略做多视角聚合。这是本文最值得借鉴的元思想。

2. 合成数据是 Feed-Forward 模型的燃料：UIKA 的消融实验清楚地表明，大规模合成数据对模型性能至关重要。7500+ 身份 × 9 视角 × 13000+ 帧的规模远超任何真实采集数据集的覆盖范围。对于数字人方向的从业者，建立自己的合成数据管线可能是 ROI 最高的投入。

3. 双流注意力比单流更强大：Screen attention 抓细节，UV attention 抓结构——这种"互补双流"的设计模式可以推广到其他需要多源信息融合的任务中。

4. 220 FPS 意味着什么：不需要神经渲染器意味着 UIKA 可以在移动端部署。对于钉钉会议等实时通信场景，这是一项关键能力。

References

参考来源

论文与代码

Wu, Z., Zhou, B., Hu, L., Liu, H., Sun, Y., Wang, X., Cao, X., Shen, Y., & Zhu, H. (2026). UIKA: Fast Universal Head Avatar from Pose-Free Images. CVPR 2026 Highlight.
arXiv:2601.07603
Giebenhain, S., Kirschstein, T., Rünz, M., Agapito, L., & Nießner, M. (2026). Pixel3DMM: Versatile Screen-Space Priors for Single-Image 3D Face Reconstruction. ICLR 2026.
Chu, X. & Harada, T. (2024). Generalizable and Animatable Gaussian Head Avatar. NeurIPS 2024.
He, Y. et al. (2025). LAM: Large Avatar Model for One-Shot Animatable Gaussian Head. SIGGRAPH 2025 Conference Papers.
Esser, P. et al. (2024). Scaling Rectified Flow Transformers for High-Resolution Image Synthesis. ICML 2024.
Li, et al. (2024). SphereHead: 3D Head Generation Model. 用于 UIKA 合成数据管线中的多视角渲染。
Guo, J. et al. (2024). LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control. arXiv:2407.03168.
Kerbl, B. et al. (2023). 3D Gaussian Splatting for Real-Time Radiance Field Rendering. ACM SIGGRAPH 2023.