数字人 Brainstorm
这次 brainstorm 的目标不是做一个“什么都能生成”的数字人,而是为面试场景的实时 Head & Shoulders / Portrait 数字人选择技术路线。这个约束会直接改变路线排序:我们关心的不是单段 demo 视频的画质上限,而是交互时延、身份稳定、半身动作、可注册资产和工程闭环。
面试数字人有几个固定事实:用户第一次注册时可以采集头像、短视频或少量身份资产;真实使用时需要实时响应候选人的语音与对话;画面以肩颈以上或半身为主;输出不一定要像素端到端直出,而可以先生成运动、姿态或可渲染参数,再由渲染器合成。
本页讨论的任务定义
注册式实时半身数字人:给定一次注册得到的身份资产,在面试交互过程中,根据 TTS 音频、文本语义或对话状态,实时生成稳定的头部、表情、口型、视线、肩颈和上半身运动,并以低延迟视频流呈现。
数字人文献最容易混乱的地方,是把论文标题里的任务名当成技术边界。Talking Head 和 Portrait Animation 并没有本质区别:它们都在生成头部或肖像区域的运动与外观,差异主要来自驱动条件和运动来源。音频驱动时常被叫 talking head,视频驱动或单图驱动时常被叫 portrait animation,但输出空间高度重合。
所以第一步不是列论文,而是建立一张二维图:横轴改成驱动条件 / 运动来源,纵轴是技术表示。这样才能判断一篇论文是候选主路线、可借鉴模块,还是只是对照基线。
横轴:驱动条件 / 运动来源
| 驱动条件 | 典型输入输出 | 与面试数字人的关系 |
|---|---|---|
| 已有视频 + 新音频 | 保留原视频头动、身体和背景,主要重绘嘴部或局部面部。 | 适合作为 lip-sync / dubbing 模块或评价基线,但不足以产生自然面试官。 |
| 参考图像 + 音频 | 从单图身份出发,由音频生成口型、表情和头动。 | 覆盖 talking head / talking portrait 主流论文,但肩颈、身体和长时稳定性仍需额外设计。 |
| 参考图像 + 驱动视频 | 源图提供身份,驱动视频提供表情、头动、视线或 pose。 | 适合复用外部运动和验证 renderer,不等价于实时音频驱动数字人。 |
| 注册资产 + 实时控制信号 | 一次注册身份资产,运行时输入音频、语义状态、视线、姿态或表情控制。 | 最贴近面试场景:允许一次注册,换取身份稳定、低延迟和可控降级。 |
| 文本 / 语义状态 + 音频 | LLM 状态、TTS 音频和对话意图共同驱动 motion packet。 | 这是面试数字人的关键增量:不仅要对嘴,还要表达倾听、追问、鼓励和停顿。 |
| 全身动作脚本或环境交互 | 生成完整身体、手势、站姿和空间动作。 | 长期方向,但当前面试 MVP 不应从 full body 起步。 |
表 1:Talking head 与 portrait animation 更适合作为命名习惯,而不是 taxonomy 的硬边界;真正区分路线的是运动从哪里来。
纵轴:技术表示
| 技术路线 | 核心表示 | 优点 | 主要风险 |
|---|---|---|---|
| Motion Space / Latent Motion | 低维运动 token、latent motion、表情/头动/姿态序列。 | 适合流式、可控、低延迟;可先生成运动再渲染。 | 需要把运动表示设计到足够表达半身和情绪。 |
| 3DGS / NeRF | 注册身份的可渲染 3D 表示,以及音频驱动的变形场。 | 身份一致性强,渲染快,适合一次注册资产。 | 训练/建模成本高,泛化和半身动作要额外处理。 |
| Keypoint / Skeleton / Pose | 2D/3D 关键点、3DMM 系数、隐式关键点或上半身 pose。 | 工程直观、可解释、易控制,适合桥接音频和渲染。 | 关键点本身不保真,最终质量依赖后端渲染器。 |
| Rig | 骨骼、blendshape、表情控制器和动画状态机。 | 工业稳定,实时性好,适合产品化角色。 | 资产制作重,照片级自然度和自动注册难度高。 |
| Diffusion / Video Generation | 像素或潜空间视频扩散模型。 | 画质、自然度和风格泛化强。 | 实时性和长时稳定性弱,不适合作为实时主链路。 |
| System Pipeline | ASR、LLM、TTS、运动生成、渲染、推流的端到端系统。 | 决定真实产品体验,可做延迟分解和降级策略。 | 如果没有底层运动/渲染路线,会变成工程拼装。 |
种子论文从四个方向出发:Wav2Lip 代表 lip-sync 专家约束,VASA-1 代表从音频到 latent motion 的视频画像路线,Ditto / DETTOL 代表轻量可流式的 latent talking head,EGSTalker 代表 3DGS 注册式实时渲染路线。围绕这些种子,再补齐每条路线 2–3 篇代表论文,形成可比较矩阵。
flowchart LR
A["Wav2Lip\nLip-sync Expert"] --> B["同步评价与口型约束"]
C["VASA-1\nLatent Motion"] --> D["面部动力学 + 头动控制"]
E["Ditto / DETTOL\nStreaming Talking Head"] --> D
F["Teller\nAutoregressive Motion"] --> D
G["EGSTalker\n3DGS Deformation"] --> H["注册身份 + 实时渲染"]
I["GaussianTalker"] --> H
J["RAD-NeRF / GeneFace++"] --> H
K["LivePortrait / SadTalker"] --> L["Keypoint / 3DMM / Pose"]
M["AniPortrait / EchoMimic / Hallo"] --> N["Diffusion Portrait"]
D --> O["候选主路线:Motion Space + Renderer"]
H --> O
L --> O方法级对比矩阵
| 路线 | 代表论文 | 核心表示 | 训练 / 推理流程 | 实时性证据 | 半身扩展性判断 |
|---|---|---|---|---|---|
| 口型同步基线 | Wav2Lip | 音频 mel 特征 + 视觉嘴部帧;核心是冻结的 lip-sync expert。 | 训练时用同步专家判别器约束生成嘴部;推理时对已有视频重绘口型。 | 论文强调 in-the-wild lip-sync 精度,并开源模型#Wav2Lip。 | 弱。它解决嘴,不解决头动、表情、肩颈和注册身份。 |
| Motion Space | VASA-1 | 从音频和控制信号生成面部动力学与头部运动,再驱动画像视频。 | 先学习可控 latent dynamics,再把运动映射到头像视频;更像“先运动、后渲染”。 | 论文目标明确指向实时 talking face generation#VASA-1。 | 中到强。核心运动空间可扩展到头肩,但需要额外身体/肩颈表示。 |
| Motion Space | Ditto / DETTOL | 轻量 latent motion 或 motion prior,强调实时、流式、跨身份驱动。 | 先把音频映射成紧凑运动,再由轻量渲染链路生成 talking head。 | 路线目标与实时互动高度一致,适合做系统主链路候选#Ditto。 | 强。比像素 diffusion 更容易加入 gaze、head pose、shoulder pose。 |
| Motion Space | Teller | 自回归运动生成,把音频流转成连续 portrait motion。 | 流式音频到运动,再逐帧驱动肖像动画;论文对比 diffusion 方法的推理成本。 | 论文报告一秒视频推理约 0.92s,并显著快于 Hallo#Teller。 | 中到强。它天然面向 streaming,但半身仍取决于运动表示覆盖范围。 |
| 3DGS | EGSTalker | 静态 3D Gaussian 头部表示 + 音频驱动 Gaussian deformation。 | 两阶段:先用 hash triplane / KAN 初始化静态 Gaussian,再用 ESAA 融合音频和空间特征预测变形。 | 只需 3–5 分钟训练视频,目标是实时 3DGS talking head#EGSTalker。 | 中。身份稳定强,但主要是头部;肩颈和上半身需要额外 Gaussian / pose 设计。 |
| 3DGS | GaussianTalker | canonical 3DGS + shared implicit feature + spatial-audio attention。 | 把 Gaussian 属性编码到共享隐式特征,与音频特征融合,逐帧预测 Gaussian 属性偏移。 | 摘要报告最高 120 FPS 渲染速度#GaussianTalker。 | 中。渲染速度好,适合注册资产;半身扩展仍需要 body-aware 表示。 |
| NeRF | RAD-NeRF | 3D spatial grid + 2D audio grid;torso 用轻量 pseudo-3D deformable module。 | 把 talking portrait 分解成低维音频—空间特征网格,头和躯干分别建模。 | 论文目标是 real-time neural radiance talking portrait#RAD-NeRF。 | 强于纯头部 NeRF,因为显式处理 torso,但训练成本仍高于 2D motion 路线。 |
| NeRF | GeneFace++ | 音频到 3DMM / landmark motion,再到高效 NeRF renderer。 | 先预测稳定 facial motion,加入 pitch contour、temporal loss 和 outlier regulation,再用高效 NeRF 渲染。 | 论文称实现 stable and real-time talking face generation#GeneFace++。 | 中。稳定性好,但半身主要还不是它的核心目标。 |
| Upper-body NeRF | SyncAnimation | AudioPose Syncer + AudioEmotion Syncer + upper-body/head NeRF renderer。 | 音频同时驱动 pose、expression、upper body、head 和 lip shape,再由 renderer 合成。 | 论文报告 RTX 4090 上 41 FPS,并强调 audio-sync upper body movement#SyncAnimation。 | 强。它是少数直接把上半身运动纳入实时目标的路线。 |
| Keypoint / Pose | LivePortrait | 隐式关键点、stitching、eyes / lip retargeting。 | 基础模型学习隐式关键点驱动,第二阶段冻结主干只训练小 MLP 控制模块。 | 论文报告 RTX 4090 + PyTorch 上 12.8ms 推理,并开源模型#LivePortrait。 | 中。非常适合做可控渲染器或 motion-to-video 后端,但音频到半身运动需另接。 |
| 3DMM / Pose | SadTalker | 3DMM motion coefficients:head pose 与 expression。 | ExpNet 学表情,PoseVAE 学头动,再映射到 3D-aware face render。 | 偏离线生成,不是严格实时主路线#SadTalker。 | 弱到中。表示可解释,但主要停留在脸和头。 |
| Diffusion | AniPortrait / Hallo / EchoMimic | landmark、mask、audio embedding 与 diffusion motion module。 | 通常先从音频得到 landmark / motion condition,再由扩散模型生成高质量 portrait video。 | 视觉质量强,但常规扩散推理较慢;实时版本需要专门加速或蒸馏#AniPortrait。 | 中。可生成更自然画面,但不适合作为实时面试主链路。 |
论文路线图给出的是“可用材料”,不是最终答案。面试场景要用另一套权重重排:实时性第一,半身扩展性第二,身份稳定第三,工程成本第四,论文/开源可验证性第五。
| 候选路线 | 实时性 | 半身扩展性 | 身份稳定 | 工程成本 | 可验证性 | 结论 |
|---|---|---|---|---|---|---|
| Motion Space / Latent Motion | 高:先生成低维运动,天然适合流式。 | 高:可扩展头动、视线、表情、肩颈和手势。 | 中:身份稳定依赖后端渲染器。 | 中:需要定义 motion schema 和训练数据。 | 中:VASA-1、Ditto、Teller 提供方向证据。 | 第一候选:最适合面试实时系统主链路。 |
| 3DGS / NeRF 注册资产 | 中到高:渲染快,但注册训练有成本。 | 中到高:RAD-NeRF / SyncAnimation 证明 torso 可纳入。 | 高:注册资产天然保持身份。 | 中到高:需要采集、重建、优化和部署。 | 高:EGSTalker、GaussianTalker、RAD-NeRF、GeneFace++ 证据充分。 | 第二候选:适合作为高保真注册渲染后端。 |
| Keypoint / Skeleton / Pose | 高:关键点和 pose 很轻。 | 中:扩展半身容易,但渲染质量不由它保证。 | 中:依赖 appearance renderer。 | 低到中:工程可控。 | 高:LivePortrait、SadTalker、AniPortrait 资料充分。 | 第三候选:适合作为控制层,不宜单独作为完整路线。 |
| Rig / Blendshape | 很高:游戏/实时动画成熟。 | 高:半身动作可控。 | 高:角色资产稳定。 | 高:资产生产与自动注册成本大。 | 中:工业经验强,论文链相对弱。 | 适合产品工程后期,不适合作为研究主线。 |
| Diffusion / Video Generation | 低到中:除非蒸馏或异步生成。 | 中:可生成 portrait,但控制半身和长时稳定困难。 | 中:长视频身份漂移风险高。 | 高:推理成本和稳定性压力大。 | 高:Hallo、EchoMimic、AniPortrait 等资料丰富。 | 适合质量上限参考,不适合作为实时主链路。 |
路线排序
第一候选:Motion Space / Latent Motion;第二候选:3DGS / NeRF 注册式渲染;第三候选:Keypoint / Skeleton / Pose 控制层。最合理的系统不是三选一,而是 Motion Space 作为实时决策层,3DGS/NeRF 或 LivePortrait 类 renderer 作为身份稳定的渲染层。
面试数字人的 MVP 不应从“直接生成像素视频”开始,而应从实时运动生成开始。系统先把 TTS 音频、文本语义和对话状态转成低维 motion packet:口型、表情、头动、视线、眨眼、肩颈姿态、停顿状态。然后再把 motion packet 交给注册式 renderer:可以是 3DGS/NeRF,也可以是 LivePortrait 类隐式关键点渲染器。
flowchart TD
A["候选人语音"] --> B["ASR"]
B --> C["LLM 面试官策略"]
C --> D["TTS 流式音频"]
C --> E["语义状态\n提问/追问/倾听/鼓励"]
D --> F["Motion Generator\nlip + expression + gaze + head + shoulder"]
E --> F
G["一次注册身份资产\nphoto / short video / 3DGS / portrait template"] --> H["Identity Renderer"]
F --> H
H --> I["WebRTC / RTMP 视频流"]
I --> J["面试前端"]下一步研究问题
- 定义 motion packet:把口型、表情、视线、头动和肩颈姿态拆成可流式预测的字段。
- 确定注册资产形态:短视频训练 3DGS/NeRF,还是单图 + portrait renderer,取决于部署成本。
- 建立实时评估:除 FID/FVD 外,还要评估同步、身份、运动自然度、稳定性、延迟和吞吐。
- 做降级策略:网络抖动或模型超时时,保持身份和轻微 idle motion,而不是让视频冻结。
参考来源
- Prajwal, K. R. et al. (2020). A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild. ACM MM. arXiv
- Xu, S. et al. (2024). VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time. Microsoft Research. Project
- Liu, Z. et al. (2024). Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis. Project
- Zhen, R. et al. (2025). Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation. CVPR. PDF
- Zhu, T. et al. (2025). EGSTalker: Real-Time Audio-Driven Talking Head Generation with Efficient Gaussian Deformation. arXiv
- Cho, K. et al. (2024). GaussianTalker: Real-Time High-Fidelity Talking Head Synthesis with Audio-Driven 3D Gaussian Splatting. arXiv
- Tang, J. et al. (2022). Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition. arXiv
- Ye, Z. et al. (2023). GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation. arXiv
- Liu, Y. et al. (2025). SyncAnimation: A Real-Time End-to-End Framework for Audio-Driven Human Pose and Talking Head Animation. arXiv
- Guo, J. et al. (2024). LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control. arXiv
- Zhang, W. et al. (2023). SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation. CVPR. arXiv
- Wei, H. et al. (2024). AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation. arXiv