数字人研究准备：正式头脑风暴前要看清什么

2026/06/09 11:51:36

数字人 Brainstorming Research Talking Head Real Time AI

Brainstorm 入口

先把目标场景钉死：不是泛化数字人，而是面试数字人

这次 brainstorm 的目标不是做一个“什么都能生成”的数字人，而是为面试场景的实时 Head & Shoulders / Portrait 数字人选择技术路线。这个约束会直接改变路线排序：我们关心的不是单段 demo 视频的画质上限，而是交互时延、身份稳定、半身动作、可注册资产和工程闭环。

面试数字人有几个固定事实：用户第一次注册时可以采集头像、短视频或少量身份资产；真实使用时需要实时响应候选人的语音与对话；画面以肩颈以上或半身为主；输出不一定要像素端到端直出，而可以先生成运动、姿态或可渲染参数，再由渲染器合成。

本页讨论的任务定义

注册式实时半身数字人：给定一次注册得到的身份资产，在面试交互过程中，根据 TTS 音频、文本语义或对话状态，实时生成稳定的头部、表情、口型、视线、肩颈和上半身运动，并以低延迟视频流呈现。

初始判断：如果只做 lip-sync，会太窄；如果直接做 full body，会过重；如果直接用 diffusion 视频生成，会被实时性卡住。更合理的切入点是非像素直出的中间运动表示。

第一轮

Brainstorm 过程：从“做什么数字人”拆成二维 taxonomy

数字人文献最容易混乱的地方，是把论文标题里的任务名当成技术边界。Talking Head 和 Portrait Animation 并没有本质区别：它们都在生成头部或肖像区域的运动与外观，差异主要来自驱动条件和运动来源。音频驱动时常被叫 talking head，视频驱动或单图驱动时常被叫 portrait animation，但输出空间高度重合。

所以第一步不是列论文，而是建立一张二维图：横轴改成驱动条件 / 运动来源，纵轴是技术表示。这样才能判断一篇论文是候选主路线、可借鉴模块，还是只是对照基线。

横轴：驱动条件 / 运动来源

驱动条件	典型输入输出	与面试数字人的关系
已有视频 + 新音频	保留原视频头动、身体和背景，主要重绘嘴部或局部面部。	适合作为 lip-sync / dubbing 模块或评价基线，但不足以产生自然面试官。
参考图像 + 音频	从单图身份出发，由音频生成口型、表情和头动。	覆盖 talking head / talking portrait 主流论文，但肩颈、身体和长时稳定性仍需额外设计。
参考图像 + 驱动视频	源图提供身份，驱动视频提供表情、头动、视线或 pose。	适合复用外部运动和验证 renderer，不等价于实时音频驱动数字人。
注册资产 + 实时控制信号	一次注册身份资产，运行时输入音频、语义状态、视线、姿态或表情控制。	最贴近面试场景：允许一次注册，换取身份稳定、低延迟和可控降级。
文本 / 语义状态 + 音频	LLM 状态、TTS 音频和对话意图共同驱动 motion packet。	这是面试数字人的关键增量：不仅要对嘴，还要表达倾听、追问、鼓励和停顿。
全身动作脚本或环境交互	生成完整身体、手势、站姿和空间动作。	长期方向，但当前面试 MVP 不应从 full body 起步。

表 1：Talking head 与 portrait animation 更适合作为命名习惯，而不是 taxonomy 的硬边界；真正区分路线的是运动从哪里来。

taxonomy 修正：不要把 talking head 和 portrait animation 作为并列大类；它们共享输出空间。更稳定的分类方式是先看驱动条件，再看底层表示和渲染器。

纵轴：技术表示

技术路线	核心表示	优点	主要风险
Motion Space / Latent Motion	低维运动 token、latent motion、表情/头动/姿态序列。	适合流式、可控、低延迟；可先生成运动再渲染。	需要把运动表示设计到足够表达半身和情绪。
3DGS / NeRF	注册身份的可渲染 3D 表示，以及音频驱动的变形场。	身份一致性强，渲染快，适合一次注册资产。	训练/建模成本高，泛化和半身动作要额外处理。
Keypoint / Skeleton / Pose	2D/3D 关键点、3DMM 系数、隐式关键点或上半身 pose。	工程直观、可解释、易控制，适合桥接音频和渲染。	关键点本身不保真，最终质量依赖后端渲染器。
Rig	骨骼、blendshape、表情控制器和动画状态机。	工业稳定，实时性好，适合产品化角色。	资产制作重，照片级自然度和自动注册难度高。
Diffusion / Video Generation	像素或潜空间视频扩散模型。	画质、自然度和风格泛化强。	实时性和长时稳定性弱，不适合作为实时主链路。
System Pipeline	ASR、LLM、TTS、运动生成、渲染、推流的端到端系统。	决定真实产品体验，可做延迟分解和降级策略。	如果没有底层运动/渲染路线，会变成工程拼装。

第二轮

从种子论文扩展路线图：不是堆论文，而是找可迁移机制

种子论文从四个方向出发：Wav2Lip 代表 lip-sync 专家约束，VASA-1 代表从音频到 latent motion 的视频画像路线，Ditto / DETTOL 代表轻量可流式的 latent talking head，EGSTalker 代表 3DGS 注册式实时渲染路线。围绕这些种子，再补齐每条路线 2–3 篇代表论文，形成可比较矩阵。

flowchart LR
    A["Wav2Lip\nLip-sync Expert"] --> B["同步评价与口型约束"]
    C["VASA-1\nLatent Motion"] --> D["面部动力学 + 头动控制"]
    E["Ditto / DETTOL\nStreaming Talking Head"] --> D
    F["Teller\nAutoregressive Motion"] --> D
    G["EGSTalker\n3DGS Deformation"] --> H["注册身份 + 实时渲染"]
    I["GaussianTalker"] --> H
    J["RAD-NeRF / GeneFace++"] --> H
    K["LivePortrait / SadTalker"] --> L["Keypoint / 3DMM / Pose"]
    M["AniPortrait / EchoMimic / Hallo"] --> N["Diffusion Portrait"]
    D --> O["候选主路线：Motion Space + Renderer"]
    H --> O
    L --> O

方法级对比矩阵

路线	代表论文	核心表示	训练 / 推理流程	实时性证据	半身扩展性判断
口型同步基线	Wav2Lip	音频 mel 特征 + 视觉嘴部帧；核心是冻结的 lip-sync expert。	训练时用同步专家判别器约束生成嘴部；推理时对已有视频重绘口型。	论文强调 in-the-wild lip-sync 精度，并开源模型#Wav2Lip。	弱。它解决嘴，不解决头动、表情、肩颈和注册身份。
Motion Space	VASA-1	从音频和控制信号生成面部动力学与头部运动，再驱动画像视频。	先学习可控 latent dynamics，再把运动映射到头像视频；更像“先运动、后渲染”。	论文目标明确指向实时 talking face generation#VASA-1。	中到强。核心运动空间可扩展到头肩，但需要额外身体/肩颈表示。
Motion Space	Ditto / DETTOL	轻量 latent motion 或 motion prior，强调实时、流式、跨身份驱动。	先把音频映射成紧凑运动，再由轻量渲染链路生成 talking head。	路线目标与实时互动高度一致，适合做系统主链路候选#Ditto。	强。比像素 diffusion 更容易加入 gaze、head pose、shoulder pose。
Motion Space	Teller	自回归运动生成，把音频流转成连续 portrait motion。	流式音频到运动，再逐帧驱动肖像动画；论文对比 diffusion 方法的推理成本。	论文报告一秒视频推理约 0.92s，并显著快于 Hallo#Teller。	中到强。它天然面向 streaming，但半身仍取决于运动表示覆盖范围。
3DGS	EGSTalker	静态 3D Gaussian 头部表示 + 音频驱动 Gaussian deformation。	两阶段：先用 hash triplane / KAN 初始化静态 Gaussian，再用 ESAA 融合音频和空间特征预测变形。	只需 3–5 分钟训练视频，目标是实时 3DGS talking head#EGSTalker。	中。身份稳定强，但主要是头部；肩颈和上半身需要额外 Gaussian / pose 设计。
3DGS	GaussianTalker	canonical 3DGS + shared implicit feature + spatial-audio attention。	把 Gaussian 属性编码到共享隐式特征，与音频特征融合，逐帧预测 Gaussian 属性偏移。	摘要报告最高 120 FPS 渲染速度#GaussianTalker。	中。渲染速度好，适合注册资产；半身扩展仍需要 body-aware 表示。
NeRF	RAD-NeRF	3D spatial grid + 2D audio grid；torso 用轻量 pseudo-3D deformable module。	把 talking portrait 分解成低维音频—空间特征网格，头和躯干分别建模。	论文目标是 real-time neural radiance talking portrait#RAD-NeRF。	强于纯头部 NeRF，因为显式处理 torso，但训练成本仍高于 2D motion 路线。
NeRF	GeneFace++	音频到 3DMM / landmark motion，再到高效 NeRF renderer。	先预测稳定 facial motion，加入 pitch contour、temporal loss 和 outlier regulation，再用高效 NeRF 渲染。	论文称实现 stable and real-time talking face generation#GeneFace++。	中。稳定性好，但半身主要还不是它的核心目标。
Upper-body NeRF	SyncAnimation	AudioPose Syncer + AudioEmotion Syncer + upper-body/head NeRF renderer。	音频同时驱动 pose、expression、upper body、head 和 lip shape，再由 renderer 合成。	论文报告 RTX 4090 上 41 FPS，并强调 audio-sync upper body movement#SyncAnimation。	强。它是少数直接把上半身运动纳入实时目标的路线。
Keypoint / Pose	LivePortrait	隐式关键点、stitching、eyes / lip retargeting。	基础模型学习隐式关键点驱动，第二阶段冻结主干只训练小 MLP 控制模块。	论文报告 RTX 4090 + PyTorch 上 12.8ms 推理，并开源模型#LivePortrait。	中。非常适合做可控渲染器或 motion-to-video 后端，但音频到半身运动需另接。
3DMM / Pose	SadTalker	3DMM motion coefficients：head pose 与 expression。	ExpNet 学表情，PoseVAE 学头动，再映射到 3D-aware face render。	偏离线生成，不是严格实时主路线#SadTalker。	弱到中。表示可解释，但主要停留在脸和头。
Diffusion	AniPortrait / Hallo / EchoMimic	landmark、mask、audio embedding 与 diffusion motion module。	通常先从音频得到 landmark / motion condition，再由扩散模型生成高质量 portrait video。	视觉质量强，但常规扩散推理较慢；实时版本需要专门加速或蒸馏#AniPortrait。	中。可生成更自然画面，但不适合作为实时面试主链路。

第三轮

按面试场景重新打分：实时性比单帧画质更重要

论文路线图给出的是“可用材料”，不是最终答案。面试场景要用另一套权重重排：实时性第一，半身扩展性第二，身份稳定第三，工程成本第四，论文/开源可验证性第五。

候选路线	实时性	半身扩展性	身份稳定	工程成本	可验证性	结论
Motion Space / Latent Motion	高：先生成低维运动，天然适合流式。	高：可扩展头动、视线、表情、肩颈和手势。	中：身份稳定依赖后端渲染器。	中：需要定义 motion schema 和训练数据。	中：VASA-1、Ditto、Teller 提供方向证据。	第一候选：最适合面试实时系统主链路。
3DGS / NeRF 注册资产	中到高：渲染快，但注册训练有成本。	中到高：RAD-NeRF / SyncAnimation 证明 torso 可纳入。	高：注册资产天然保持身份。	中到高：需要采集、重建、优化和部署。	高：EGSTalker、GaussianTalker、RAD-NeRF、GeneFace++ 证据充分。	第二候选：适合作为高保真注册渲染后端。
Keypoint / Skeleton / Pose	高：关键点和 pose 很轻。	中：扩展半身容易，但渲染质量不由它保证。	中：依赖 appearance renderer。	低到中：工程可控。	高：LivePortrait、SadTalker、AniPortrait 资料充分。	第三候选：适合作为控制层，不宜单独作为完整路线。
Rig / Blendshape	很高：游戏/实时动画成熟。	高：半身动作可控。	高：角色资产稳定。	高：资产生产与自动注册成本大。	中：工业经验强，论文链相对弱。	适合产品工程后期，不适合作为研究主线。
Diffusion / Video Generation	低到中：除非蒸馏或异步生成。	中：可生成 portrait，但控制半身和长时稳定困难。	中：长视频身份漂移风险高。	高：推理成本和稳定性压力大。	高：Hallo、EchoMimic、AniPortrait 等资料丰富。	适合质量上限参考，不适合作为实时主链路。

路线排序

第一候选：Motion Space / Latent Motion；第二候选：3DGS / NeRF 注册式渲染；第三候选：Keypoint / Skeleton / Pose 控制层。最合理的系统不是三选一，而是 Motion Space 作为实时决策层，3DGS/NeRF 或 LivePortrait 类 renderer 作为身份稳定的渲染层。

最终方案

建议路线：Motion Space 主链路 + 注册资产渲染器

面试数字人的 MVP 不应从“直接生成像素视频”开始，而应从实时运动生成开始。系统先把 TTS 音频、文本语义和对话状态转成低维 motion packet：口型、表情、头动、视线、眨眼、肩颈姿态、停顿状态。然后再把 motion packet 交给注册式 renderer：可以是 3DGS/NeRF，也可以是 LivePortrait 类隐式关键点渲染器。

flowchart TD
    A["候选人语音"] --> B["ASR"]
    B --> C["LLM 面试官策略"]
    C --> D["TTS 流式音频"]
    C --> E["语义状态\n提问/追问/倾听/鼓励"]
    D --> F["Motion Generator\nlip + expression + gaze + head + shoulder"]
    E --> F
    G["一次注册身份资产\nphoto / short video / 3DGS / portrait template"] --> H["Identity Renderer"]
    F --> H
    H --> I["WebRTC / RTMP 视频流"]
    I --> J["面试前端"]

下一步研究问题

定义 motion packet：把口型、表情、视线、头动和肩颈姿态拆成可流式预测的字段。
确定注册资产形态：短视频训练 3DGS/NeRF，还是单图 + portrait renderer，取决于部署成本。
建立实时评估：除 FID/FVD 外，还要评估同步、身份、运动自然度、稳定性、延迟和吞吐。
做降级策略：网络抖动或模型超时时，保持身份和轻微 idle motion，而不是让视频冻结。

一句话结论：面试数字人的核心不是“生成更美的一段视频”，而是把对话状态稳定翻译成可渲染的实时半身运动。

参考来源

Prajwal, K. R. et al. (2020). A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild. ACM MM. arXiv
Xu, S. et al. (2024). VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time. Microsoft Research. Project
Liu, Z. et al. (2024). Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis. Project
Zhen, R. et al. (2025). Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation. CVPR. PDF
Zhu, T. et al. (2025). EGSTalker: Real-Time Audio-Driven Talking Head Generation with Efficient Gaussian Deformation. arXiv
Cho, K. et al. (2024). GaussianTalker: Real-Time High-Fidelity Talking Head Synthesis with Audio-Driven 3D Gaussian Splatting. arXiv
Tang, J. et al. (2022). Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition. arXiv
Ye, Z. et al. (2023). GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation. arXiv
Liu, Y. et al. (2025). SyncAnimation: A Real-Time End-to-End Framework for Audio-Driven Human Pose and Talking Head Animation. arXiv
Guo, J. et al. (2024). LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control. arXiv
Zhang, W. et al. (2023). SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation. CVPR. arXiv
Wei, H. et al. (2024). AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation. arXiv