ESC
输入关键词搜索文章
目录

评测指标、算力与产品选型

从公式直觉到可执行协议:指标怎么算、数据集用什么、算力要多少、怎么落地
系列(九)· Metrics · Datasets · Compute · Benchmark · 产品选型
5指标族深度拆解
15数据集格式与规模
28模型输入/输出
6技术路线算力
4模型对比协议
20+代表论文
系列位置
这一篇回答"实验和部署到底要准备什么"

前面几篇已经把数字人的任务边界和技术路线拆开:换嘴、运动空间、3DGS/NeRF、扩散基模、整帧/全身生成和实时流式蒸馏。本文把评测方法论、数据集、训练资源、推理资源和产品选型放到同一张坐标系里。

本文回答以下问题:

  • Part 1:五大评测指标(画质、时序、同步、身份、效率)到底怎么算、什么时候会骗人、用什么代码库复现?
  • Part 2:六条路线的训练算力、推理资源和 benchmark 重点分别是什么?
  • Part 3-6:每条路线的 loss、指标和数据集细节。
  • Part 7:主流训练与评测数据集的规模、License、偏差和适用场景。
  • Part 8:FlashHead / LAM / UIKA / LiteAvatar 四个类型完全不同的模型,怎么设计标准化对比协议?
  • Part 9:指标陷阱与反模式清单。
  • Part 10-11:如何设计自己的 benchmark?产品怎么选?PoC/MVP/规模化怎么落地?
  • Appendix A:28 个模型的输入/输出规格汇总——训练时分阶段输入、推理时输入、最终输出。
  • Appendix B:15 个数据集的数据组织格式(视频、音频、参考图、标注等)与磁盘规模。
  • Appendix C:数字人脸真实度评测指标全景——FIQA、感知质量、deepfake 检测能否反向用作质量指标?
读法提示:本文是参考材料,不是线性叙事。做实验复现先看 Part 1 找指标代码库;选型对比直接跳 Part 8 看对比协议;设计自己的 benchmark 从 Part 7 的数据集表开始;关心成本和落地看 Part 2 和 Part 10-11。
Part 1
五大指标族:从公式直觉到失败模式

数字人的 evaluation 至少有五个维度:画质、时序、同步、身份、效率。FID、FVD 只能回答"生成分布像不像测试集",不能单独回答嘴型准不准、身份稳不稳、首帧延迟能不能接受。本节对每个维度做三件事:解释计算原理(直觉,不是推导),列出失败模式(什么时候数字在骗你),给出可复现的代码库。#Heusel-et-al.-2017 #Unterthiner-et-al.-2018 #Chung-et-al.-2017 #Deng-et-al.-2019 #Zhang-et-al.-2018

指标族常见指标回答的问题容易误读的地方
图像质量FID、PSNR、SSIM、LPIPS、FaceIQA、IQA单帧是否清晰、是否像真实图像局部换嘴保留原视频大部分区域,FID/FVD 可能天然更好
视频时序FVD、temporal consistency、Dino-S跨帧是否稳定,长视频是否漂移短视频好不代表 5 分钟以上稳定
音画同步LSE-D、LSE-C、Sync-C、Sync-D、LMD嘴型和音频是否对齐同步高不等于表情自然,也不等于身份稳定
身份保持CSIM、ArcFace similarity、Dino-S、人工 identity score生成过程是否仍像同一个人长时生成里身份漂移通常比短片更严重
系统效率FPS、RTF、TTFF、FFD、显存、吞吐能否实时、能否流式、能否并发离线 FPS、批量 FPS 和单路交互延迟不是一回事

1.1 图像质量:FID、PSNR、SSIM、LPIPS

FID(Frechet Inception Distance) 把生成图像和真实图像分别送入 Inception-v3,取 pool3 层 2048 维特征,假设两组特征都服从多元高斯分布,然后算两个分布之间的 Frechet 距离:

$$\text{FID} = \|\mu_r - \mu_g\|^2 + \text{Tr}\left(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2}\right)$$

直觉上,FID 同时比较均值("平均长什么样")和协方差("多样性如何")。FID 越低,生成分布越接近真实分布。

FID 的失败模式

  • 样本量敏感:少于 1000 张样本时 FID 方差大,不同论文用不同样本量算出的 FID 不可比。
  • 奖励 mode collapse:如果生成分布很窄但恰好在真实分布的高密度区域,FID 可能很低,但多样性为零。
  • 不测时序:FID 是逐帧计算的,完全忽略视频的时间连续性。
  • 局部换嘴路线的虚假优势:Wav2Lip、MuseTalk 这类方法只改嘴部区域,其余像素来自原视频,FID 天然接近原视频分布。
  • 特征提取器依赖:Inception-v3 在 ImageNet 上训练,对人脸细节的判别力有限。clean-fid 库提供了更一致的预处理。#Kynkaamaki-et-al.-2022

PSNR / SSIM 是像素级和结构级的重建质量指标。PSNR 直接衡量像素误差的对数比,SSIM 同时考虑亮度、对比度和结构相似性。它们都需要 ground truth 对齐帧,因此只适用于 self-reenactment 或有 GT 的重建任务(LAM、UIKA 的论文主实验)。PSNR 的失败模式是对空间位移敏感:一张完美但偏移 1 像素的图像 PSNR 会很低。

LPIPS 用预训练 VGG/AlexNet 的特征空间计算感知距离,与人眼判断的相关性比 PSNR 更强。对生成模型来说,LPIPS 通常比 PSNR 更可靠。#Zhang-et-al.-2018

IQA(Image Quality Assessment) 是无参考图像质量评估的统称,代表方法包括 BRISQUE #Mittal-et-al.-2012(自然场景统计)、NIQE #Mittal-et-al.-2013(无需训练的盲评估)、MUSIQ #Ke-et-al.-2021(多尺度 Transformer)和 CLIP-IQA+ #Wang-et-al.-2023(CLIP 多模态)。它们不需要 ground truth,适合大规模筛选生成帧,但在 GAN/diffusion 生成的人脸上泛化差——训练数据是自然图像,对生成模型的系统性伪影(牙齿融合、耳朵变形)不敏感。

FaceIQA(Face Image Quality Assessment) 是 IQA 的人脸特化版本,代表方法包括 FaceQnet v2 #Hernandez-Ortega-et-al.-2020(清晰度+光照+遮挡综合打分)和 CR-FIQA #Boutros-et-al.-2022(ArcFace 识别置信度作为质量代理)。它们优化的是"这张脸能否被准确识别",而非"这张脸看起来是否像真人"——对数字人真实度评测存在概念错位,但可快速筛除明显低质帧。详细讨论见 Appendix C。

指标回答什么不能回答什么代码库跨路线适用
FID生成分布是否像真实分布单帧质量、时序稳定、同步pytorch-fidclean-fid视频生成模型;3DGS 需先渲染为视频
PSNR像素级重建精度感知质量、分布相似度scikit-image、torchmetrics需要 GT 对齐帧
SSIM结构相似性时序、同步、身份scikit-image、pytorch-msssim同 PSNR
LPIPS感知相似度绝对质量、时序lpips pip 包需要 GT,但比 PSNR 更接近人判
IQA无参考图像质量(清晰度/自然度)身份、同步、生成伪影pyiqamusiq无需 GT,适合大规模筛选;对生成脸泛化差
FaceIQA人脸可用质量(识别友好度)视觉真实度、恐怖谷FaceQnetCR-FIQA快速筛除低质帧;不测"像不像真人"

1.2 视频时序:FVD、Dino-S

FVD(Frechet Video Distance) 是 FID 的视频版:用 I3D 在视频片段上抽取时空特征,再算 Frechet 距离。与 FID 的关键区别是 FVD 同时评估时间连续性——闪烁、跳帧和动作不连贯都会拉高 FVD。#Unterthiner-et-al.-2018

FVD 的最大陷阱是 clip length 敏感性。16 帧和 32 帧算出的 FVD 差异可以超过 50%,不同论文用不同 clip length 的结果不可直接比。

Dino-S 用 DINOv2 #Oquab-et-al.-2024 的自监督特征衡量相邻帧的语义一致性。它不需要 ground truth,适合评估长视频的时间稳定性。但 Dino-S 测的是特征稳定而非语义正确——一个静态画面也能得高分。

1.3 唇音同步:Sync-C / Sync-D / LSE-C / LSE-D

SyncNet 是唇音同步评测的核心工具。它用双流 CNN 分别处理嘴部 ROI 视频片段和音频梅尔频谱,输出两组 embedding 后算余弦相似度(Sync-C,越高越好)和欧氏距离(Sync-D,越低越好)。SyncNet 在 VoxCeleb2 上训练,主要覆盖英语、正面人脸。#Chung-et-al.-2017

SyncNet 的失败模式

  • 非英语退化:SyncNet 在英语上训练,对中文、日语等语言的同步判断可能不准。
  • 极端姿态:侧脸、低头、遮挡会导致嘴部 ROI 裁剪失败。
  • 高分 ≠ 自然表情:SyncNet 只判断"嘴型和音频是否一致",不判断"表情是否自然"。
  • "一致但错误":如果模型学到了错误的嘴型模式但音画仍然同步,SyncNet 无法区分。

LSE-C / LSE-D 是 Wav2Lip 论文引入的变体,计算方式类似但使用不同的 SyncNet 模型版本。复现时务必确认使用的是哪个 SyncNet checkpoint。#Prajwal-et-al.-2020

1.4 身份保持:CSIM、ArcFace

CSIM(Cosine Similarity of Identity embedding) 用 ArcFace 等人脸识别模型提取参考图和生成帧的身份 embedding,计算余弦相似度。CSIM 的关键陷阱是判别性嵌入和生成质量的脱节:ArcFace 是为身份判别训练的,一张模糊但"像同一个人"的图像可以得高分。此外,静态面部(几乎没有表情变化)的 CSIM 通常很高——不代表模型的表情生成能力好。#Deng-et-al.-2019

1.5 系统效率:FPS、RTF、TTFF、VRAM

系统效率指标看起来最直接,却也是最容易被论文和 demo 误导的维度。FPS 必须区分离线批量、单路流式和多路并发;RTF < 1 表示实时;TTFF(Time To First Frame)对实时交互场景比 FPS 更重要;VRAM 决定了单卡能跑什么模型。

工程实测参考工程 Benchmark 汇总页 记录了 A10 GPU 上的真实推理数据:LiteAvatar 25.19 FPS / 7507 MiB,LAM 30 FPS / 1725 MiB,FlashHead Lite 46.7 FPS,FlashHead Pro 4.8 FPS / 7839 MiB。
flowchart TD
  Q1{"模型输出类型?"}
  Q1 -->|"视频帧序列"| Q2{"评估什么?"}
  Q1 -->|"3D 资产"| Q3{"渲染后评估 还是资产评估?"}
  Q1 -->|"参数化面部"| Q4{"驱动精度 还是外观质量?"}
  Q2 -->|"画质"| M1["FID / LPIPS"]
  Q2 -->|"时序稳定"| M2["FVD / Dino-S"]
  Q2 -->|"唇音同步"| M3["Sync-C/D"]
  Q2 -->|"身份保持"| M4["CSIM / ArcFace"]
  Q3 -->|"渲染后"| M5["同视频帧指标"]
  Q3 -->|"几何资产"| M6["Chamfer / F-Score"]
  Q4 -->|"驱动精度"| M7["AED / AKD"]
  Q4 -->|"外观"| M8["PSNR / SSIM / LPIPS"]
  

图 1:指标选择决策树。从模型输出类型出发,引导到适合的评测指标。

Part 2
六条路线的算力量级总表
路线代表方法训练算力量级推理算力量级Benchmark 重点
轻量换嘴 /
局部重绘
Wav2Lip
MuseTalk
8×V100 约 3 天
8×H20 两阶段数十小时
单 V100
30–40 FPS 量级
LRS2、ReSyncED
HDTFVFHQ
口型同步
身份保持
局部画质 / artifact
运动空间 /
隐式关键点
SadTalker、LivePortrait
VASA-1、Ditto、Teller
4×A6000 / 8×A100
8×8 A800 等中高配训练
RTX 4090 或 A100 可达实时
Teller 用 4×H800 做 200ms chunk
VoxCeleb2、Talk9、HDTF100
HDTF、RAVDESS
口型同步
身份保持
头动 / 表情
实时性 / 延迟
NeRF
talking portrait
AD-NeRF
RAD-NeRF
ER-NeRF
早期 AD-NeRF 可到天级 / 百小时级
ER-NeRF 降到小时级
从低 FPS 到十几 FPS
取决于 ray sampling 与加速结构
person-specific 短视频
画质:PSNR / LPIPS
运动:LMD
同步:LSE-C
效率:FPS
3DGS
talking head
TalkingGaussian、GaussianTalker
GSTalker、EGSTalker
小时级到几十分钟级数十到百 FPS 量级person-specific 3–5 分钟视频
运动:LMD
同步:LSE-C
身份保持
FPS / 长时稳定
扩散肖像 /
音频驱动 portrait
EMO、Hallo
AniPortrait、FLAP
单卡到 8×A100
EMO 更披露 250h+ 数据而非 GPU
多步扩散偏离线
部分模型未披露标准推理耗时
HDTF、CelebV、VFHQ
CelebV-HQ、Wild
画质:FID / FVD
同步 / 身份
表情 / 时序稳定
整帧 / 全身 /
流式基模
Animate Anyone、OmniAvatar
InfiniteTalk、Live Avatar
StreamAvatar、LLIA
14B 视频基座
64×H100 或 128×H800 量级
离线 DiT 很慢
蒸馏后可到 5×H800 45 FPS
或 4090D 45–78 FPS
HDTF、CelebV-HQ、EMTD
GenBench、TikTok、UBC
长时稳定
全身动作 / 手势
TTFF / 延迟 / FPS

算力数字只能同口径比较

训练时长受数据量、分辨率、batch size、混合精度、并行策略和是否从预训练模型微调影响;推理速度受分辨率、采样步数、是否 batch、是否 TensorRT/FP8/INT8、是否包含音频编码和媒体链路影响。本文把它们作为路线量级,不把不同论文的数字直接排成绝对榜单。

Part 3
轻量换嘴和局部重绘:最低成本验证同步链路

轻量换嘴路线的基本假设是:原视频的大部分内容已经足够好,模型只需要改嘴部或脸部局部区域。Wav2Lip 的代表性设计是先训练一个强唇形同步专家,再用 L1、VGG perceptual、Sync loss 和 adversarial loss 约束生成器;论文级实验报告 8 张 V100 训练约 3 天、单 V100 约 40 FPS,训练和测试基准围绕 LRS2 与 ReSyncED 展开。#Wav2Lip

MuseTalk 把问题放进 latent inpainting:先用 L1 + VGG perceptual 学局部重建,再加入 face / lip adversarial discriminator 和 SyncNet 同步约束;本地精读记录的配置是 Stage 1 用 8 张 H20、200k steps、约 60 小时,Stage 2 约 30 小时,推理在 V100 上 256×256、preloaded data 条件下约 30 FPS。#MuseTalk

方法常见 loss常见指标常用 benchmark / 数据集适合判断
Wav2LipL1 重构、VGG perceptual、SyncNet sync、GAN adversarialLSE-D、LSE-C、FID、人评LRS2、ReSyncED已有视频配音是否对口型
MuseTalkL1、VGG、face/lip adversarial、SyncNet syncFID、CSIM、LSE-C、用户研究HDTFVFHQ局部重绘能否兼顾同步和身份

这条路线的 benchmark 要特别注意"保留原视频"的优势。因为背景、头部姿态和大部分脸部纹理来自原视频,FID/FVD 往往不会暴露模型真实的可控性短板;相反,LSE-C/LSE-D、CSIM、嘴部边界 artifact 和用户研究更接近产品风险。

Part 4
运动空间路线:把像素生成改成可缓存的运动生成

运动空间路线先把脸部、头部或身体动作压到更低维的表示里,再由渲染器把运动转成视频。SadTalker 使用 3DMM 运动系数,把表情和姿态拆给 ExpNet 与 PoseVAE。#SadTalker

LivePortrait 用隐式关键点、stitching 和 retargeting 做快速肖像动画;Stage I 在 8 张 A100 上从零训练约 10 天,Stage II 约 2 天,推理在 RTX 4090 + PyTorch 上约 12.8ms。#LivePortrait

VASA-1 把面部潜在空间和 diffusion transformer 分开:面部潜在空间模型用 4 张 RTX A6000 训练 7 天,扩散 Transformer 训练 3 天;推理在单 RTX 4090 上达到 512×512 在线 40 FPS、启动延迟约 170ms。VASA-1 评估 SC、SD、FVD25、CAPP、ΔP。#VASA1

Ditto 和 Teller 更直接面向流式系统。Ditto 用 8 张 A100、batch size 1024、500 epochs 训练 motion-space diffusion,推理报告 RTF 与 FFD;Teller 则把 motion 进一步 token 化,Stage 1 / SFT / ETM 使用 8×8 A800 量级训练,推理在 4 张 H800 上按 200ms chunk 运行。#Ditto #Teller

子路线代表方法loss 重点metrics 重点benchmark
3DMM / 参数运动SadTalker表情系数重构、Sync loss、VAE ELBO、KL同步、身份、头动自然度VoxCeleb、talking head 对比集
隐式关键点LivePortraitGAN、perceptual、face identity、landmark guide、stitching/retargetingPSNR、SSIM、LPIPS、L1、CSIM、eye direction MAE、FIDTalkingHead-1KH、VFHQ
motion diffusionVASA-1、Dittoclean motion MSE、速度/加速度 temporal loss、initial loss、adaptive weightsFVD、CSIM、Sync-C/D、RTF、FFD、CAPP、ΔPVoxCeleb2、Talk9、HDTF100
motion token ARTellerRVQ reconstruction + commitment、AR token prediction、region mask reconstructionFID、FVD、Sync-C、Sync-D、TimeAVSpeech、VFHQHDTF、RAVDESS
Part 5
NeRF 与 3DGS:专人资产的训练成本和渲染效率

3D/显式可渲染表示路线的 benchmark 和通用视频生成很不一样:它通常是 person-specific,先用某个目标人物的几分钟到几小时视频训练一个资产,再用新音频或新 motion 驱动它。AD-NeRF 把头和躯干建成 NeRF,后续论文汇总里出现过 167.6 小时训练、0.04 FPS 的量级;ER-NeRF 通过区域感知和高效表示把训练降到 8.9 小时、推理到 15.21 FPS。#ADNeRF #ERNeRF #DigitalHuman3DGS

3D Gaussian Splatting 把渲染瓶颈从体渲染的 ray marching 转成显式 Gaussian rasterization。TalkingGaussian 的训练约 1.5 小时、推理 70.42 FPS;GaussianTalker 训练 4.5 小时、59.24 FPS;GSTalker 训练 40 分钟、实时 125 FPS;EGSTalker 训练 3.7 小时、68.51 FPS。#TalkingGaussian #GaussianTalker #GSTalker #EGSTalker

路线常见 loss常见指标数据 / benchmark 形态实验解读
NeRF talking portraitRGB 重建、感知/结构、嘴部或 landmark 约束、同步约束PSNR、SSIM、LPIPS、FID、LMD、LSE-D/C、训练时间、FPSObama、May 等 person-specific 短视频画质指标不能替代同步指标;体渲染是推理瓶颈
3DGS talking headL1、D-SSIM、LPIPS、lip reconstruction、audio-lip latent consistency、smoothnessPSNR、SSIM、LPIPS、FID、LMD、LSE-D/C、FPS3–5 分钟目标人物视频,held-out frames / audio小时级训练和实时渲染让专人 avatar 更接近可用
motion controllermotion token reconstruction、masked infill、prosody alignment、temporal continuityR@1、FID、ESD、Diversity、FGD、BC、人评SuSuInterActs、BEATv2生成的是 motion,不应和最终视频 FPS 直接比较

SentiAvatar 属于 motion controller:它用 8 张 A100 训练 R-VQVAE、Motion Foundation Model、SFT 和 Infill Transformers,报告约 0.3 秒生成 6 秒 motion 输出,benchmark 是 SuSuInterActs 与 BEATv2,指标包括 R@1、FID、ESD、Diversity、FGD、BC 和用户研究。#SentiAvatar

Part 6
扩散肖像、整帧全身和流式基模:从离线质量到实时系统

扩散肖像路线的优势是表情和画面质量,代价是多步采样。Hallo 使用 8 张 A100、两阶段各 30,000 steps、512×512 训练,benchmark 覆盖 HDTF、CelebV 和 Wild,指标包括 FID、FVD、Sync-C、Sync-D、E-FID;AniPortrait 的 Audio2Lmk 在单张 A100 上训练,Lmk2Video 用 4 张 A100、每阶段约 2 天。#Hallo #AniPortrait #EMO

整帧与全身路线把背景、身体和场景也纳入生成。Animate Anyone 用内部 5K character video clips,评测 UBC fashion video 和 TikTok;OmniAvatar 基于 Wan2.1-T2V-14B 做 LoRA 音频适配;InfiniteTalk 基于 Wan2.1-I2V-14B,使用约 2000 小时数据和 64 张 H100 80G 训练。#AnimateAnyone #OmniAvatar #InfiniteTalk

实时流式路线的关键不是"换一个更快采样器",而是把训练目标、因果注意力、蒸馏、量化、流水线和缓存一起改。Live Avatar 用 14B Wan-S2V 初始化,Stage 1 用 128×H800 训练 25K steps,推理默认 4-step,5×H800 达到 45.2 FPS / 1.21s TTFF。StreamAvatar 把双向扩散改为 block-wise causal attention 并蒸馏;LLIA 则用 consistency model、INT8 和 pipeline parallelism,在 RTX 4090D 上 512×512 45 FPS。#LiveAvatar #StreamAvatar #LLIA

路线常见训练目标评估重点benchmark / 数据集典型风险
音频扩散肖像diffusion denoising、latent reconstruction、L1 landmark / mesh、audio-visual attention alignmentFID、FVD、Sync-C/D、E-FID、用户研究HDTF、CelebV、Wild、VFHQ、CelebV-HQ推理慢、短片好但交互延迟高
整帧 / 全身 DiTflow matching / diffusion denoising、LoRA 适配、reference / pose / audio conditionFID、FVD、Sync-C/D、CSIM、人评、长时一致性UBC、TikTok、HDTF、CelebV-HQ、EMTDFID/FVD 对局部编辑和整帧重生成不公平
流式蒸馏flow matching、DMD / self-forcing、AR distillation、adversarial refinement、consistency trainingFPS、TTFF、ASE、IQA、Sync-C、Dino-S、长视频身份GenBench、AVSpeech、long / short split只优化短视频会漏掉长时身份漂移和首帧延迟
Part 7
数据集全景:训练、评测与偏差

数字人的数据集大致分三类:训练数据(用于学参数)、评测数据(用于算指标)和两用数据。选择数据集时不只看规模,还要看 License 是否允许商用、人口统计学偏差是否匹配目标场景、分辨率和帧率是否与实验设置对齐。

数据集规模分辨率License训练 / 评测使用它的模型局限性 / 偏差
HDTF362 speakers, 10K clips, 15.8h512pResearch only两者FlashHead、LAM、UIKA、SadTalker、Hallo正面为主、studio 光照、英语为主
VFHQ15,204 clips, ~3M frames512pCC-BY-NC-SA两者LAM、UIKA、FlashHead、LivePortrait、MuseTalk访谈场景,多身份,但非商业
VoxCeleb26,112 speakers, 1M+ utterances多分辨率CC-BY训练为主SyncNet 预训练、VASA-1、DittoYouTube 提取,噪声多,多人种
CelebV-HQ35,666 clips, 多属性标注512p+Research评测为主Hallo、AniPortrait、OmniAvatar、InfiniteTalk名人视频,属性标注丰富
LRS2 / LRS3LRS2: 150K+ clips (TED)256p-512pLRS2: CC-BY两者Wav2LipTED 演讲场景,英语,正面
MEAD60 speakers, 281K clips, 39h384pResearch训练FlashHead(VividHead 组成)多视角、多情绪,studio 环境
NeRSemble-v2多视角 studio 采集高分辨率Research评测UIKAstudio 光照,身份数少但 3D 一致性监督强
VividHead60K speakers, 330K clips, 782h512p未公开训练FlashHead从 10K 小时清洗,15 种语言
AVSpeech290K clips (YouTube)多分辨率CC-BY训练Live Avatar、Teller噪声大,YouTube 提取,质量参差
RAVDESS24 actors, 多情绪HDCC-BY-NC-SA评测Teller表演情绪,规模小但受控
UIKA Synthetic7500+ 身份 × 9 视角 × 13K+ 帧512p自建训练UIKASphereHead + LivePortrait 合成,与真实分布有偏移
EMTD情绪丰富的 talking headHDResearch评测InfiniteTalk侧重情绪表达

表:数字人主流数据集汇总。

数据集-模型交叉矩阵

数据集FlashHeadLAMUIKALiteAvatar
HDTFT + EET
VFHQT + ET + ET + E
VoxCeleb2
CelebV-HQ
MEADT (VividHead)
NeRSemble-v2T + E
VividHeadT

表:数据集-模型交叉矩阵。T = 训练使用,E = 评测使用。LiteAvatar 是工程工具,不使用学术数据集。

License 警示HDTF 和 CelebV-HQ 仅限研究使用;VFHQ 为 CC-BY-NC-SA(非商业);VoxCeleb2 为 CC-BY(可商用)。如果目标是产品选型,评测集的法律风险要单独评估。
Part 8
苹果和橘子怎么比:四模型标准化对比协议

FlashHead、LAM、UIKA 和 LiteAvatar 是四种类型完全不同的数字人模型。它们各自的论文用不同的指标、在不同的数据集上报告结果。直接比较 FlashHead 的 FID 和 LAM 的 PSNR,就像比较汽车的风阻系数和自行车的链条效率。

8.1 模型定位

模型类型输入输出论文自报指标设计意图
FlashHead2D 视频 DiT参考图 + 音频流视频帧序列FID, FVD, Sync-C, Sync-D, FPS消费级 GPU 实时流式数字人
LAM3DGS 重建单张图像可动画 3D Gaussian 资产PSNR, SSIM, LPIPS, CSIM, AED, AKD单图→可驱动 3D 资产,跨平台实时
UIKA3DGS 重建1-N 张 pose-free 图像可动画 3D Gaussian 资产PSNR, SSIM, LPIPS, CSIM, AED, APD任意输入→高质量 3D 头部资产
LiteAvatar2D 参数化面部音频(16kHz WAV)面部动画帧无学术指标纯 CPU 实时,工程部署工具

8.2 桥接策略:输出归一化 + 两层指标

对比的前提是让四个模型的输出进入同一格式:所有模型统一输出 25fps、512×512 的视频帧序列。LAM/UIKA 用测试音频驱动 FLAME 参数 → 固定虚拟相机渲染视频;FlashHead/LiteAvatar 直接使用原生输出。

层次指标适用模型说明
Tier 1(通用)Sync-C, Sync-D, CSIM, FPS, VRAM全部四个模型任何音频驱动的面部动画都能算。Sync-C/D 测唇音同步,CSIM 测身份保持,FPS/VRAM 测系统效率。
Tier 2(类型专属)FID, FVDFlashHead, LiteAvatar视频生成模型可直接算;LAM/UIKA 渲染后也可算但受渲染器影响。
PSNR, SSIM, LPIPS, AED, AKDLAM, UIKA需要 GT 对齐帧,仅 self-reenactment 可算。

两层分开报告,不合成单一分数。

8.3 测试集与人评

测试集:标准集(HDTF 75 videos + VFHQ 50 clips)与论文对齐;压力集(长音频 >60s、非英语、极端姿态、歌唱)测边界;身份集(20 身份 × 3 张参考图)测稳定性。

人评:30 人,within-subject 设计,4 维度 1-5 分 MOS(唇音同步、身份匹配、自然度、整体偏好),Latin Square 随机化,Krippendorff's alpha + Wilcoxon signed-rank test + Bonferroni correction。

flowchart LR
  subgraph Inputs["统一输入"]
    A["参考图像"] --> B["测试音频"]
  end
  subgraph Models["四模型推理"]
    B --> C["FlashHead\n→ 视频帧"]
    B --> D["LAM\n→ 3DGS → 渲染视频"]
    B --> E["UIKA\n→ 3DGS → 渲染视频"]
    B --> F["LiteAvatar\n→ 视频帧"]
  end
  subgraph Normalize["输出归一化"]
    C --> G["512×512, 25fps"]
    D --> G
    E --> G
    F --> G
  end
  subgraph Metrics["统一评测"]
    G --> H["Tier 1: Sync + CSIM + FPS"]
    G --> I["Tier 2: FID/FVD 或 PSNR/AED"]
    G --> J["人评 MOS"]
  end
  

图 2:四模型标准化对比流程。

解读注意事项

  • LiteAvatar 的低画质是设计取舍:纯 CPU 30 FPS 的工程工具,不是研究模型。
  • LAM/UIKA 的独特优势不体现在 Tier 1:一次建模、无限驱动的 3D 资产复用能力是视频生成模型做不到的。
  • FPS 口径不同:FlashHead 96 FPS 在 RTX 4090 上,LiteAvatar 30 FPS 在纯 CPU 上,跨硬件只看 FPS 会误导。
Part 9
指标陷阱:什么时候数字在骗你
反模式为什么是陷阱正确做法
只报 FID 不报 SyncFID 不测唇音同步lip-sync 模型必须同时报告 Sync-C/D
跨分辨率比 PSNR256×256 和 512×512 的 PSNR 没有可比性统一分辨率后再算 PSNR
SyncNet 在非英语上未校准SyncNet 训练数据是英语+正面跨语言用同一版本 SyncNet + 同一 face detector;补充人评
FPS 不标口径论文 FPS 可能排除预处理、后处理和音频编码标注:模型 forward / 端到端 / 含音频管线
CSIM 高 = 模型好静态面部 CSIM 天然高CSIM + AED(表情距离)联合报告
短视频 FVD 好 = 长视频稳定16 帧 FVD 看不出 1 分钟后的漂移补充 30s/60s 长视频 Dino-S 和定性检查
Part 10
怎样设计自己的 benchmark 和产品选型

如果目标是复现实验,benchmark 可以沿论文设置走;如果目标是产品选型,建议把测试集拆成四组。

评测包应该包含推荐指标适用路线
公开复现包LRS2 / HDTF / VFHQ / VoxCeleb2 / CelebV-HQ 子集FID、FVD、Sync-C/D、CSIM、LPIPS所有论文复现
业务样本包真实客户形象、真实话术、真实音频设备人工 MOS、身份保持、失败率、可审核性产品选型
压力样本包长音频、侧脸、遮挡、强表情、唱歌、跨语言长时 Dino-S、Sync、artifact rate、重试率实时和长视频路线
系统延迟包ASR/TTS、avatar、编码、推流、网络、队列TTFF、RTF、p50/p95 latency、GPU memory、吞吐实时交互系统
flowchart TD
  Q1{"目标是离线内容还是实时交互?"}
  Q1 -->|"离线内容"| A1["优先 FID / FVD / CSIM / 人评"]
  Q1 -->|"实时交互"| Q2{"是否要长时稳定?"}
  Q2 -->|"否,短对话"| A2["Sync-C/D + RTF + TTFF + p95 latency"]
  Q2 -->|"是,长直播"| A3["长视频身份 + Dino-S + Sync + drift rate + 重置策略"]
  Q1 -->|"专人资产"| A4["训练时间 + FPS + LMD + LSE-C + held-out frames"]
  

图 3:数字人 benchmark 设计决策树。论文指标解决"能否复现",业务指标解决"能否上线"。

从 benchmark 回到产品选型

业务目标优先路线核心评估主要风险
已有视频多语言配音Wav2Lip / MuseTalk
轻量换嘴
LSE-C / LSE-D
边界 artifact
局部画质
口型边界
情绪不一致
素材授权
客服 / 会议 avatarLivePortrait / VASA-1 / Ditto
运动空间 talking head
RTF / FFD / TTFF
身份保持
长时稳定
表情僵硬
身份漂移
故障降级
专人高保真形象3DGS / NeRF
专人资产路线
训练小时数
FPS
LMD / LSE-C
采集成本
跨姿态泛化
资产维护
虚拟主播短视频Hallo / AniPortrait / EMO / OmniAvatar
整帧或全身生成
FVD / CSIM / Sync
动作自然度
人评
生成失败率
审核成本
重试成本
实时互动讲解 / 直播Live Avatar / StreamAvatar
流式基模 + 蒸馏
FPS / TTFF / p95 latency
长视频 identity
并发吞吐
首帧延迟
长时漂移
多卡调度
选型口径:离线内容生产可以优先追求表现力和人评质量;实时交互必须把首帧延迟、端到端延迟、长时稳定和降级策略放在画质之前。
Part 11
PoC、MVP 与规模化的落地检查

数字人项目的失败经常不是模型不可用,而是阶段错配:PoC 阶段追求生产级画质,MVP 阶段没有监控和降级,规模化阶段才发现许可证、肖像权、声音权或单位经济模型不成立。

阶段验证目标退出条件不该过早投入
PoC链路能否跑通口型 / 身份 / 延迟达标
许可证无明显阻塞
目标用户不反感
大规模多卡训练
全身高真实生成
复杂运营后台
MVP是否有人持续使用留存和会话时长稳定
故障率可控
单路成本有基线
盲目扩并发
绑定单一供应商
忽略内容审核
规模化是否能持续赚钱单位经济为正
合规审计通过
监控、调度、降级完备
无授权形象商用
无备用路线
只按 demo FPS 估成本

上线前还要单独检查许可证。Wav2Lip README 提示存在商业 API;MuseTalk 主许可证为 MIT;LivePortrait 主仓库为 MIT,但部分 InsightFace 相关模型仅限非商业研究;SadTalker 使用 Apache-2.0。代码许可证、模型权重许可证、依赖模型条款和训练数据授权要分开看。#Wav2Lip-GitHub #MuseTalk-License #LivePortrait-License #SadTalker-License

Appendix A
模型输入/输出规格汇总

下表按技术路线整理 28 个模型的输入、输出和多阶段训练配置。多阶段模型分别列出每个训练阶段的输入;推理时输入单独标注。#Wav2Lip #MuseTalk #SadTalker #LivePortrait #VASA1 #Ditto #Teller

模型路线训练输入推理输入最终输出训练阶段
Wav2Lip轻量换嘴视频帧 + 对应音频梅尔频谱任意视频 + 任意音频唇形同步视频(原视频嘴部替换)Stage 1: SyncNet 专家训练
Stage 2: GAN 生成器(L1+VGG+Sync+adversarial)
MuseTalk局部重绘视频帧 + 音频梅尔频谱 + 嘴部 mask视频/图像 + 音频唇形同步视频(latent inpainting)Stage 1: L1+VGG 基础重建(8×H20, 200K steps)
Stage 2: face/lip adversarial + SyncNet(~30h)
SadTalker3DMM 运动视频数据集(VoxCeleb 等)+ 3DMM 表情系数 GT单张图像 + 任意音频带动画面部视频Stage 1: ExpNet 表情系数预测(+ lip-sync 判别器)
Stage 2: PoseVAE 条件姿态生成
Stage 3: 面部渲染网络(运动系数→图像 warp)
LivePortrait隐式关键点参考图 + 驱动视频(提取关键点运动)参考图 + 驱动运动(视频/关键点序列)动画肖像视频Stage I: 隐式关键点+外观网络(8×A100, ~10天)
Stage II: stitching+retargeting(~2天)
VASA-1motion diffusion参考图 + 音频 + 凝视/距离条件参考图 + 音频 + 可选条件512×512 talking head 视频Stage 1: 面部潜在空间模型(4×A6000, 7天)
Stage 2: DiT 扩散(3天);推理 40 FPS
Dittomotion diffusion视频帧(330 身份,~50h)→ Motion Extractor 提取 265D 运动表示 + HuBERT 音频特征 + 控制信号源图像 + 音频 + 可选控制信号(凝视/情绪/姿态/眼部状态)talking head 视频(DiT 生成 265D 运动 → 预训练渲染器合成画面)Motion Extractor / Renderer 预训练(LivePortrait 式)+ 条件 DiT 训练(8×A100, batch 1024, 500 epochs)
Tellermotion token ARAVSpeech 662h + VFHQ 2h(motion RVQ token + Whisper 音频嵌入)源肖像图 + 流式音频 200ms chunks + 自回归运动 token 上下文流式 talking head 视频(25 FPS,4×H800 端到端 <200ms)Stage 1 预训练: AR Transformer(8×8 A800, batch 1024, 40 epochs)+ SFT(32h, 10 epochs)
Stage 2: ETM 时序细化模块(VAE + 3D U-Net temporal attention, 30 epochs)
AD-NeRFNeRF portrait目标人物短视频(3-5min)+ 对应音频 + DeepSpeech 特征 + 3DMM 姿态专人 NeRF 模型 + 新音频特征 + 头部姿态序列talking head 视频(Head-NeRF + Torso-NeRF 分别渲染合成)Stage 1: Head-NeRF 训练
Stage 2: Torso-NeRF 训练(以 Head 初始化);共 ~167.6h
ER-NeRFNeRF portrait目标人物短视频 + 音频 + DeepSpeech/Wav2Vec 特征 + 3DMM 姿态 + AU45专人 NeRF 模型 + 新音频特征 + 头部姿态序列talking head 视频(tri-plane hash grid 渲染)Stage 1: Head NeRF(100K iters)
Stage 2: Lip 微调(patch LPIPS, 125K iters)
Stage 3: Torso NeRF(200K iters);训练 8.9h,推理 15 FPS
TalkingGaussian3DGS head目标人物 3-5min 视频 + 音频 + DeepSpeech/HuBERT 特征 + 3DMM 姿态 + AU专人 3DGS 模型(融合后)+ 新音频特征 + 头部姿态序列实时 talking head 视频(GS 光栅化渲染)Stage 1: Mouth 3DGS 训练
Stage 2: Face 3DGS 训练(可并行)
Stage 3: Fuse 融合训练;训练 ~1.5h,推理 70 FPS
GaussianTalker3DGS head目标人物视频 + 音频 + 音频特征 + 3DMM 姿态 + 面部解析 mask专人 3DGS 模型 + 新音频特征 + 头部姿态实时 talking head 视频(面部/身体 3DGS 分别渲染)面部 3DGS + 身体 3DGS 分离训练;~4.5h,59 FPS
GSTalker3DGS head目标人物视频 + 音频 + HuBERT/DeepSpeech 特征 + 头部姿态 + 语义解析 mask专人 3DGS + 形变场模型 + 新音频特征 + 头部姿态 + 眨眼特征实时 talking head 视频(GS 光栅化,125 FPS)Stage 1: 静态 Gaussian 初始化(~1min)
Stage 2: 音频条件形变场训练(100K iters, ~40min 总)
EGSTalker3DGS head目标人物视频 + 音频 + 音频特征 + 3DMM 姿态 + 表情参数专人 3DGS 模型 + 新音频特征 + 头部姿态 + 表情参数实时 talking head 视频(expression-guided GS 渲染,68 FPS)expression-guided Gaussian splatting;~3.7h
SentiAvatarmotion controllerSuSuInterActs 动捕数据(63 关节 6D 旋转 + ARKit 51 维表情 + 同步语音)+ 200K+ 预训练运动序列语音音频 + 动作/表情文本标签 + 可选上文运动上下文3D 动画参数(63 关节旋转 + 51 维 ARKit 表情),驱动游戏引擎中的 3D 角色Stage 1: R-VQVAE 运动/表情 token 化
Stage 2: Motion FM 预训练(Qwen-0.5B, 200K 序列)
Stage 3: SFT 角色微调
Stage 4: Infill Transformer(8×A100)
EMO扩散肖像参考图 + 音频参考图 + 音频肖像动画视频Stage 1: 面部预训练(250h+ 数据)
Stage 2: 音频-肖像对齐
Hallo扩散肖像参考图 + 音频参考图 + 音频肖像动画视频Stage 1: 面部预训练
Stage 2: 级联潜扩散(8×A100, 各 30K steps)
AniPortrait扩散肖像Audio2Lmk: wav2vec2 特征 → 3D mesh / 6D 姿态 GT
Lmk2Video: VFHQ+CelebV-HQ 视频 + MediaPipe 2D 关键点
参考图 + 音频(或驱动视频关键点序列)肖像动画视频(512×512,最长约 10s)Audio2Lmk: Audio2Mesh + Audio2Pose(单 A100)
Lmk2Video Stage 1: 2D 组件+ReferenceNet+PoseGuider(4×A100, 2天, 300K steps)
Lmk2Video Stage 2: 冻结其余,训练 motion module(2天, 40K steps)
FLAP扩散肖像视频(HDTF+CelebV-HQ+VFHQ)+ 逐帧 FLAME 120D 系数(旋转/眼/下颌/表情)参考图 + 音频(→ Audio-to-FLAME 生成 FLAME 系数)+ 可选用户控制可控 talking head 视频(512×512)PFT 三阶段:Stage 1 头部运动图像训练(150K steps)
Stage 2 表情图像训练(冻结运动层, 150K steps)
Stage 3 视频时序训练(50K steps, SD1.5+AnimateDiff 初始化)
Animate Anyone全身生成参考图 + pose 序列参考图 + pose 序列全身动画视频内部 5K character video clips 训练
OmniAvatar全身 DiT参考图/视频 + 音频参考图 + 音频音频驱动全身视频Wan2.1-T2V-14B + LoRA 音频适配
InfiniteTalk全身 DiT源视频 + 音频 + 稀疏关键帧参考视频/图像 + 音频 + 上下文帧长视频音频驱动 talking headWan2.1-I2V-14B 微调(~2000h, 64×H100 80G)
Live Avatar流式基模参考图 + 音频 + 上下文帧参考图 + 音频流实时流式视频Stage 1: 128×H800 25K steps
推理 4-step, 5×H800 → 45.2 FPS / 1.21s TTFF
StreamAvatar流式蒸馏参考图 + 音频参考图 + 音频流实时流式视频双向扩散 → block-wise causal attention + 蒸馏
LLIA流式蒸馏参考图 + 音频参考图 + 音频流实时流式视频consistency model + INT8 + pipeline parallelism;4090D 45 FPS
FlashHead2D 视频 DiT参考图 + 音频 + 运动上下文帧参考图 + 音频流(~1.32s chunks)+ 自回归运动帧实时流式 talking head 视频(512×512, 25fps;Lite 96 FPS / Pro 10.81 FPS)Stage 1: 流式感知时空预训练(flow-matching MSE, 100K steps, 32×H20)
Stage 2: Oracle 引导双向蒸馏(DMD + latent regression)
LAM3DGS 重建视频帧序列 + FLAME 参数(VFHQ 15K clips,每步采样 8 帧)单张图像(→ 一次前向生成 3DGS 资产)+ FLAME 驱动参数可动画 3D Gaussian 资产(经 LBS 动画 + 光栅化渲染为实时视频;WebGL 部署,iPhone 26-38 FPS)统一训练:L1+LPIPS+mask+offset loss(200 epochs);单阶段,无分步优化
UIKA3DGS 重建视频帧序列(VFHQ+HDTF+NeRSemble-v2+合成数据 7500+ 身份)1-N 张 pose-free 图像(→ 生成 3DGS 资产)+ FLAME 驱动参数可动画 3D Gaussian 头部资产(LBS 动画 + GS 渲染,220 FPS;推理耗时随视角数增长)统一端到端训练 150K steps(32×H20);含 UV 对应估计器 + MM-Transformer + UV 解码器,单阶段联合优化
LiteAvatar参数化面部预训练参数化面部模型(未公开训练细节)音频(TTS 输出,16kHz)→ audio2param 提取面部参数(30 FPS)参数化面部渲染帧(H×W×3 RGB, 25 FPS;纯 CPU 推理)audio2param(音频→参数)+ param2video(参数→渲染帧);C++ 核心实现

表:28 个数字人模型的输入/输出规格。多阶段训练分别列出;推理输入指部署时所需。#EGSTalker #SentiAvatar #Hallo #AniPortrait #FLAP #OmniAvatar #InfiniteTalk #LiveAvatar #StreamAvatar #LLIA #Yu-et-al.-2026 #He-et-al.-2025 #Wu-et-al.-2026 #LiteAvatar

读表提示:推理输入越简单(如 LiteAvatar 只需音频),部署门槛越低;但输入越丰富(如 InfiniteTalk 需要源视频+音频+关键帧),可控性越强。注意两类根本不同的模型范式:(1)专人模型(AD-NeRF / ER-NeRF / TalkingGaussian / GSTalker / EGSTalker)对每个目标人物单独训练一个 NeRF/3DGS 模型,推理时用该模型 + 新音频生成视频;(2)通用模型(LAM / UIKA)对任意输入图像做一次前向即生成可复用 3DGS 资产,再用任意音频/运动驱动渲染。多阶段训练的模型通常前一阶段学基础能力(身份/空间结构),后一阶段学音频驱动/时序一致性。
Appendix B
数据集数据组织格式与规模

Part 7 汇总了数据集的 License 和适用场景,本节补充每个数据集实际提供什么类型的数据(视频、音频、参考图像、3D 扫描、标注等)以及磁盘规模。选择数据集时,除了看 License 和规模,还要看数据组织格式是否与模型训练管线匹配。

数据集数据类型视频/帧音频参考图关键标注规模获取方式
HDTF视频 + 音频MP4, 512×512, 25fpsWAV(需自行从视频提取)需从视频截取首帧时间段标注、crop 窗口、缩放比368 clips / ~362 人 / ~15.8h / ~10-15 GBGitHub 元数据 + YouTube URL 自下载
VFHQ视频 + 音频MP4, ≥512×512内嵌(需自行提取)无(从视频截取)5 阶段质量筛选标签16,827 clips / 7,228 源视频 / ~30-50 GBGitHub 工具 + YouTube
VoxCeleb2视频 + 音频MP4, 多种分辨率AAC/WAV, 16kHz+Speaker ID、性别、国籍~150K utterances / 6,112 人 / >2000h / ~300+ GBURL 列表(视频已下架,需自下载)
CelebV-HQ视频 + 标注MP4, ≥512×512内嵌无(从视频截取)83 种面部属性、情绪、bbox35,666 clips / 15,653 人 / ~50-80 GBGitHub + youtube_dl 脚本
LRS2视频 + 音频 + 文本MP4, 576p/720p内嵌, 16kHz逐句文本转录、词对齐~96K utterances / ~220h / ~30-40 GB申请下载(非商业研究)
LRS3视频 + 音频 + 文本MP4, 720p/1080p内嵌, 16kHz逐句文本转录、词对齐~152K utterances / ~430h / ~50-70 GB申请下载(非商业研究)
MEAD多视角视频 + 音频MP4, 384p, 7 视角同步独立音轨(录音棚采集)可从视频截取8 情绪 × 3 强度 × 7 视角~281K clips / 60 人 / ~39h / ~100-200 GB百度网盘 / Google Drive
NeRSemble-v2多视角帧序列JPG 帧, 7.1MP, 73fps, 16 相机(纯视觉重建)多视角帧均可作参考相机内外参、FLAME 参数4,700+ seqs / 220+ 人 / ~500GB-1TB申请访问(研究用途)
VividHead视频 + 音频MP4, 512×512, 3-60s/clip严格时间对齐语音可从视频截取语言、年龄、族裔元数据330K clips / ~60K 人 / 782h / ~200-400 GB未公开(Soul AI Lab 内部)
AVSpeech视频 + 音频YouTube 原始质量, 3-10s/clip内嵌(单人清晰语音)CSV 元数据(YouTube ID、bbox)~290K videos / ~4700h / ~1-2 TBCSV 元数据 + YouTube 自下载
RAVDESS视频 + 音频MP4, 720p H.264WAV 48kHz / AAC 48kHz可从视频截取8 情绪 × 2 强度(文件名编码)7,356 files / 24 人 / 24.8 GBZenodo 直接下载
UIKA Synthetic合成多视角渲染图, 512×512, 9 视角(纯视觉)9 视角渲染图FLAME pose/expression 参数7,500+ 身份 × 9 视角 × 13K+ 帧未公开(UIKA 自建管线)
EMTD视频 + 音频HD, 全身/半身内嵌可从视频截取情绪标签未公开研究获取
UBC Fashion视频 + PoseMP4, HD无语音(背景/无声)可从视频截取OpenPose/DWPose 骨骼关键点数千 clips / ~10-30 GB论文附带
GenBench视频 + 音频多种分辨率CosyVoice 合成语音Gemini/Qwen 生成角色类型、视角、范围Short: 100×10s + Long: 15×5min+论文附带

表:15 个主流数据集的数据组织格式与规模。加粗"无"表示该数据集不提供此类数据。

数据格式与模型训练的匹配

  • 音频提取:HDTF、VFHQ、VoxCeleb2、CelebV-HQ 等数据集的音频内嵌在视频中,训练前需要用 ffmpeg 提取独立音轨(ffmpeg -i input.mp4 -vn -acodec pcm_s16le -ar 16000 output.wav)。
  • 参考图截取:大多数 talking head 数据集不提供独立参考图像,需要从视频中截取首帧或指定帧作为 one-shot 参考图。
  • 纯视觉数据集:NeRSemble-v2 和 UIKA Synthetic 不含音频,仅用于 3D 重建和几何评估;音频驱动需要额外配对。
  • Pose 数据集:UBC Fashion 提供骨骼关键点而非音频,适用于 pose-driven 全身动画评测(Animate Anyone 路线),不适用于 lip-sync 评测。
  • 磁盘估算:磁盘大小为估算值,实际取决于编码格式、帧率和压缩率。VoxCeleb2 原始文件已下架,实际可用性取决于 YouTube 视频是否仍在线。
Appendix C
数字人脸真实度评测:指标全景与 deepfake 检测的适用性

Part 1 覆盖了五大通用指标族(画质、时序、同步、身份、效率),但数字人的核心用户体验是"看起来像不像真人"——这个问题比任何单一指标都更复杂。本节补充三方面内容:人脸专用质量评估(FIQA)、感知质量最新进展、以及 deepfake 检测能否反向用作真实度指标。

C.1 人脸专用质量评估(FIQA)

FIQA(Face Image Quality Assessment)是专门针对人脸图像的质量评估,区别于通用 IQA。但需要注意:现有 FIQA 方法几乎全部以"人脸识别性能"为优化目标——其质量定义是"这张脸能否被准确识别",而非"这张脸看起来是否像真人"。直接用于数字人真实度评测存在概念错位,但可作为辅助筛除指标。

方法原理对数字人评测的价值局限代码库
FaceQnet v2 #Hernandez-Ortega-et-al.-2020ResNet50 综合打分(清晰度、光照、遮挡、姿态)快速筛除明显低质帧训练目标是"识别友好度",对 GAN/diffusion 伪影不敏感uam-biometrics/FaceQnet
CR-FIQA #Boutros-et-al.-2022ArcFace 识别置信度作为质量代理高质量帧排序如果生成脸骗过 ArcFace,CR-FIQA 会给高分——恰恰是评测想检测的问题fdbtrs/CR-FIQA
SDD-FIQA #Ou-et-al.-2022同一人脸多次嵌入的分布一致性评估稳定性计算开销大,同样依赖识别模型Ou et al. 2022
MagFace #Meng-et-al.-2021识别+质量联合优化,quality 从特征 magnitude 推导端到端质量感知质量定义仍是"识别友好度"Meng et al. 2021
SER-FIQ #Terhorst-et-al.-2020人脸嵌入不确定性作为质量信号不确定性感知的筛选不确定性反映识别模型困惑度,不等于视觉真实度Terhorst et al. 2020
DSL-FIQA #Chen-et-al.-2024双集合退化学习 + Landmark-Guided Transformer,优化感知质量而非识别可用性GFIQA 方向最新代表,比 BFIQA 更适合评估数字人生成帧的感知质量跨数据集泛化 PLCC 仅 0.42;依赖 landmark detector;代码无 License深度解读

C.2 感知质量与人脸真实度指标

除了 Part 1 已覆盖的 FID/FVD/LPIPS,以下指标对数字人脸真实度有更直接的评测价值:

指标原理适用场景局限
DISTS #Ding-et-al.-2020结构和纹理的联合感知相似度比 LPIPS 更适合纹理丰富的生成脸基于 ImageNet 预训练,非人脸特化;需要 GT
CLIP-IQA+ #Wang-et-al.-2023CLIP 多模态无参考质量评估无 GT 时的生成质量评估泛化性好但在人脸生成领域未充分验证
MANIQA #Yang-et-al.-2022 / MUSIQ #Ke-et-al.-2021Transformer 无参考 IQA大规模无参考筛选在自然图像上训练,对 GAN/diffusion 系统性伪影泛化差
FaceSSIM / Face-LPIPS在人脸裁剪区域上计算 SSIM #Wang-et-al.-2004 / LPIPS #Zhang-et-al.-2018比全图指标更聚焦脸部非独立论文方法,而是多篇 talking head 论文(如 Wav2Lip #Prajwal-et-al.-2020、LivePortrait #LivePortrait)中自定义的裁剪区域 SSIM/LPIPS
AKD / MKD关键点欧氏距离(Average / Mean Keypoint Distance)面部几何准确性只测几何,不测纹理/光影;定义因论文而异,常见于 LivePortrait #LivePortrait、SadTalker #SadTalker
ΔP / CAPP表情参数变化幅度/一致性表情驱动自然度依赖特定 3DMM/AU 参数化模型;见 Ditto #Ditto、VASA-1 #VASA1

C.3 Deepfake 检测能否反向用于真实度评测?

一个直觉性的想法是:如果 deepfake 检测器判断生成脸为"真",说明它足够真实。但这个推理存在根本性问题。

检测器原理能否反向用?理由
XceptionNet #Rossler-et-al.-2019空域伪造痕迹(压缩伪影、混合边界)部分能在 face swap 上训练,对 diffusion/talking head 泛化差;分数未经校准
EfficientNet + NoisePrint #Cozzolino-et-al.-2019高层语义 + 噪声残差融合部分能噪声分析对 GAN checkerboard artifact 有捕获能力,但噪声模式 ≠ 视觉真实度
Face X-ray #Li-et-al.-2020预测混合边界位置和强度能(局部路线)对 Wav2Lip/MuseTalk 等局部换嘴的 blending 质量有直接参考价值;对端到端全脸生成失效
Multi-attention (MAT) #Zhao-et-al.-2021多尺度注意力定位伪造线索部分能可提供"哪里不真实"的空间热力图,但注意力权重为二分类优化
FTCN #Guo-et-al.-2022频域时序不一致性检测能(视频场景)频域时序异常与数字人"闪烁""抖动""唇形突变"直接对应;比 FVD 更有针对性
频谱分析 (DCT) #Wang-et-al.-2020GAN/扩散模型的频谱特征性异常频谱异常与生成模型固有缺陷直接关联,不受语义内容影响;适合作为组合指标的一个分量

为什么 deepfake 检测不适合直接用作质量指标

  • 目标错位:Deepfake 检测优化二分类准确率,数字人质量评估是多维连续评估。检测器的 decision boundary 不等于质量梯度。
  • 训练分布偏移:现有检测器主要在 face swap 数据上训练(FF++ #Rossler-et-al.-2019、Celeb-DF #Li-et-al.-2020-celebdf、DFDC #Dolhansky-et-al.-2020),对 diffusion/NeRF/3DGS 生成的数字人泛化差。高质量 EMO 生成可能被标记为"真"(不像已知伪造),低质量但有新伪影的生成可能被标记为"假"——两种情况都无法反映真实质量。
  • 分数不可解释:检测器 softmax 输出未经校准,0.7 和 0.8 之间没有明确的质量语义。
  • 数字人 vs deepfake 的本质区别:数字人有明确的驱动信号(音频/文本)可供同步评估,deepfake 没有;数字人的质量标准是"看起来自然、同步、一致",deepfake 的标准是"不被检测到"——两者优化方向根本不同。

C.4 推荐的分层真实度评测框架

综合 Part 1 的通用指标和本节的专项目标,推荐以下分层评估框架:

层级维度推荐指标说明
L0 基础质量清晰度/可用性FaceQnet v2 或 CR-FIQA快速筛除明显低质帧;不作为最终评分
L1 图像真实度感知质量LPIPS(有GT)/ CLIP-IQA+(无GT)/ DISTS比 FID 更适合单样本评估
L1 图像真实度分布相似度FID(clean-fid,≥1000 样本)仅用于模型间横向比较
L2 身份保真度身份一致性CSIM (ArcFace cosine)one-shot 场景必须报告
L2 身份保真度几何准确性AKD / landmark distance补充 CSIM 的纹理盲区
L3 时序质量视频连贯性FVD(注明 clip length)+ FTCN 频域时序分FVD 看整体,FTCN 看频域异常
L3 时序质量帧间稳定Dino-S / temporal consistency长视频漂移检测
L4 同步质量唇音同步SyncNet LSE-C / LSE-Dtalking head 必报
L5 融合质量局部拼接Face X-ray blending score仅适用于局部换脸/换嘴路线
L6 生成痕迹频谱异常DCT 频谱分析检测 GAN/diffusion 固有伪影
L7 人类感知综合主观MOS(多维度、within-subject、≥30 人)金标准,但不可自动化
关键原则:没有单一指标能回答"这个数字人好不好",必须多维度组合。无参考指标(CLIP-IQA+、FaceQnet)用于大规模筛选,有参考指标(LPIPS、CSIM)用于精确对比。Deepfake 检测器的特定组件(Face X-ray 的 blending 检测、FTCN 的频域时序分析、DCT 频谱分析)可抽取为专项工具,但不应直接用作质量分数。

未来研究方向

  • Digital Human Quality Benchmark:需要专门的 benchmark,覆盖 NeRF/3DGS/diffusion/autoregressive/GAN/局部换嘴 等多条路线的生成样本,配合人类标注的多维质量分数。现有 FF++/Celeb-DF/DFDC 均不适用。
  • Face-specific Perceptual Metric:在人脸生成数据上训练感知质量模型,而非复用 ImageNet 预训练的 LPIPS/VGG。
  • Uncanny Valley 量化:目前没有任何自动指标能捕获"恐怖谷"效应,需要结合 FACS、微表情分析和心理物理学实验。
  • Long-term Exposure Study:现有用户研究都是短时暴露,数字人在实际使用中是长时间暴露的,感知质量可能随时间变化。
  • Cross-modal Consistency:数字人是音视频联合产物,需要超越唇音同步,评估表情-语调匹配、手势-语义匹配等跨模态一致性。
Conclusion
指标是工具,不是答案

数字人没有一个统一 benchmark 能覆盖所有路线。轻量换嘴的核心是同步和边界质量;运动空间的核心是低维运动是否稳定、可控、实时;NeRF/3DGS 的核心是专人资产训练成本和渲染效率;扩散肖像和整帧全身路线的核心是表现力、长时一致性和采样成本;流式基模则必须把 FPS、TTFF、长视频身份和系统链路一起评估。

跨路线对比(如 FlashHead vs LAM vs UIKA vs LiteAvatar)需要输出归一化和两层指标体系,不能合成单一分数排名。产品选型时,先把业务目标翻译成评测维度,再从本文的指标族和数据集表中选择合适的工具。

一页速查

  • 五大指标族:画质(FID/PSNR/SSIM/LPIPS)、时序(FVD/Dino-S)、同步(Sync-C/D)、身份(CSIM)、效率(FPS/RTF/TTFF/VRAM)。
  • 跨路线对比:Sync-C/D + CSIM + FPS + VRAM 是通用指标。FID/FVD 仅适用于视频输出;PSNR/SSIM 仅适用于有 GT 的重建任务。
  • 最低成本验证:Wav2Lip / MuseTalk,看 LSE-C、CSIM、FID 和真实素材边界。
  • 实时 talking head:LivePortrait / VASA-1 / Ditto / Teller,看 RTF、FFD、Sync-C/D 和首帧。
  • 专人高保真资产:3DGS 优先于传统 NeRF,看训练小时数、FPS、LMD 和 LSE-C。
  • 离线高表现力:Hallo / AniPortrait / EMO / InfiniteTalk,看 FVD、Sync、CSIM、人评和失败样本。
  • 实时大模型路线:Live Avatar / StreamAvatar / LLIA,看 TTFF、FPS、长时 identity 和并发成本。
  • 模型输入/输出(Appendix A):28 个模型的训练输入、推理输入、最终输出和多阶段配置汇总。
  • 数据集格式与规模(Appendix B):15 个数据集的数据类型(视频/音频/参考图/标注)、磁盘大小和获取方式。
  • 真实度评测(Appendix C):FIQA(FaceQnet/CR-FIQA)、感知质量(DISTS/CLIP-IQA+)、deepfake 检测的适用性分析;推荐 L0-L7 分层评测框架。

参考来源

  • Heusel, M. et al. (2017). GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium (FID). arXiv:1706.08500
  • Unterthiner, T. et al. (2018). Towards Accurate Generative Models of Video (FVD). arXiv:1812.01717
  • Chung, J. S. et al. (2017). Out of Time: Automated Lip Sync in the Wild (SyncNet). arXiv:1611.01599
  • Prajwal, K. R. et al. (2020). Wav2Lip: Accurately Lip-syncing Videos In The Wild (LSE-C/D). arXiv:2008.10010;本系列精读:Wav2Lip
  • Deng, J. et al. (2019). ArcFace: Additive Angular Margin Loss for Deep Face Recognition (CSIM). CVPR 2019
  • Zhang, R. et al. (2018). The Unreasonable Effectiveness of Deep Features as a Perceptual Metric (LPIPS). CVPR 2018
  • 本系列精读:Wav2Lip
  • 本系列精读:MuseTalk
  • Zhang, W. et al. (2023). SadTalker. arXiv:2211.12194;本系列精读:SadTalker
  • Guo, J. et al. (2024). LivePortrait. 本系列精读:LivePortrait
  • Xu, S. et al. (2024). VASA-1. 本系列精读:VASA-1
  • 本系列精读:Ditto
  • 本系列精读:Teller
  • 本系列专题:3DGS 与 NeRF 数字人路线
  • Guo, Y. et al. (2021). AD-NeRF. arXiv:2103.11078
  • Li, J. et al. (2023). ER-NeRF. arXiv:2307.09323
  • TalkingGaussian. arXiv HTML
  • GaussianTalker. arXiv HTML
  • GSTalker. arXiv HTML
  • EGSTalker. arXiv HTML;本系列精读:EGSTalker
  • SentiAvatar. arXiv:2604.02908;本系列精读:SentiAvatar
  • 本系列精读:Hallo
  • 本系列精读:AniPortrait
  • EMO: Emote Portrait Alive. arXiv HTML
  • 本系列精读:FLAP
  • Animate Anyone. arXiv HTML
  • OmniAvatar. arXiv HTML
  • 本系列精读:InfiniteTalk
  • 本系列精读:Live Avatar
  • StreamAvatar. arXiv HTML
  • 本系列专题:扩散基模与整帧数字人路线
  • Yu, T. et al. (2026). SoulX-FlashHead. arXiv:2602.07449;本系列精读:FlashHead
  • He, Y. et al. (2025). LAM: Large Avatar Model. arXiv:2502.17796;本系列精读:LAM
  • Wu, Z. et al. (2026). UIKA: Fast Universal Head Avatar. arXiv:2601.07603;本系列精读:UIKA
  • HumanAIGC/lite-avatar. GitHub;本系列源码解读:LiteAvatar
  • Rudrabha/Wav2Lip official repository. GitHub
  • TMElyralab/MuseTalk LICENSE. MIT License
  • KwaiVGI/LivePortrait LICENSE and README. GitHub
  • OpenTalker/SadTalker LICENSE. Apache-2.0
  • Hernandez-Ortega, J. et al. (2020). FaceQnet: Quality Assessment for Face Recognition Systems. GitHub
  • Boutros, F. et al. (2022). CR-FIQA: Face Image Quality Assessment by Confidence-Ranked Face Recognition. GitHub
  • Meng, Q. et al. (2021). MagFace: A Universal Representation for Face Recognition and Quality Inference. CVPR 2021
  • Li, Y. et al. (2020). Face X-ray for Discovering Unknown Face Synthesis. CVPR 2020
  • Guo, Z. et al. (2022). Exploring Frequency Adversarial Attacks for Face Forgery Detection. arXiv:2203.15691
  • Wang, J. et al. (2023). Exploring CLIP for Assessing the Look and Feel of Images (CLIP-IQA+). AAAI 2023
  • Ding, K. et al. (2020). Image Quality Assessment: Unifying Structure and Texture Similarity (DISTS). arXiv:2004.07728
  • Wang, K. et al. (2020). MEAD: A Large-scale Audio-visual Dataset for Emotional Talking-face Generation. ECCV 2020;本系列精读:MEAD
  • Ou, F. et al. (2022). SDD-FIQA: Unsupervised Face Image Quality Assessment with Similarity Distribution Distance. ICCV 2021 (extended)
  • Chen, W.-T. et al. (2024). DSL-FIQA: Assessing Facial Image Quality via Dual-Set Degradation Learning and Landmark-Guided Transformer. CVPR 2024. arXiv:2406.09622;本系列精读:DSL-FIQA
  • Terhorst, P. et al. (2020). SER-FIQ: Unsupervised Estimation of Face Image Quality Based on Clustering. CVPR 2020
  • Yang, S. et al. (2022). MANIQA: Multi-dimension Attention Network for No-Reference Image Quality Assessment. CVPRW 2022
  • Ke, J. et al. (2021). MUSIQ: Multi-scale Image Quality Transformer. ICCV 2021
  • Wang, Z. et al. (2004). Image Quality Assessment: From Error Visibility to Structural Similarity. IEEE TIP 2004
  • Rossler, A. et al. (2019). FaceForensics++: Learning to Detect Manipulated Facial Images. ICCV 2019
  • Cozzolino, D. et al. (2019). NoisePrint: A CNN-Based Camera Fingerprint for Detecting and Locating Image Forgeries. CVPR 2019
  • Zhao, Y. et al. (2021). Multi-Attentional Deepfake Detection. CVPR 2021
  • Wang, S.-Y. et al. (2020). CNN-generated images are surprisingly easy to spot... for now. CVPR 2020
  • Li, Y. et al. (2020). Celeb-DF: A Large-scale Challenging Dataset for DeepFake Forensics. CVPR 2020
  • Dolhansky, B. et al. (2020). The DeepFake Detection Challenge (DFDC) Dataset. arXiv:1910.08854
  • Mittal, A. et al. (2012). No-Reference Image Quality Assessment in the Spatial Domain (BRISQUE). IEEE TIP 2012
  • Mittal, A. et al. (2013). Making a "Completely Blind" Image Quality Analyzer (NIQE). IEEE Signal Processing Letters 2013
  • Kynkaamaki, S. et al. (2022). Improved Precision and Recall of Generative Models (clean-fid). GitHub
  • Oquab, M. et al. (2024). DINOv2: Learning Robust Visual Features without Supervision. TMLR 2024
  • Ding, K. et al. (2020). Image Quality Assessment: Unifying Structure and Texture Similarity. arXiv:2004.07728