ESC
输入关键词搜索文章
目录

数字人 Brainstorm

面试场景实时半身数字人的技术路线怎么选
驱动条件 · 技术表示 · 论文路线图 · 候选排序
Brainstorm 入口
先把目标场景钉死:不是泛化数字人,而是面试数字人

这次 brainstorm 的目标不是做一个“什么都能生成”的数字人,而是为面试场景的实时 Head & Shoulders / Portrait 数字人选择技术路线。这个约束会直接改变路线排序:我们关心的不是单段 demo 视频的画质上限,而是交互时延、身份稳定、半身动作、可注册资产和工程闭环。

面试数字人有几个固定事实:用户第一次注册时可以采集头像、短视频或少量身份资产;真实使用时需要实时响应候选人的语音与对话;画面以肩颈以上或半身为主;输出不一定要像素端到端直出,而可以先生成运动、姿态或可渲染参数,再由渲染器合成。

本页讨论的任务定义

注册式实时半身数字人:给定一次注册得到的身份资产,在面试交互过程中,根据 TTS 音频、文本语义或对话状态,实时生成稳定的头部、表情、口型、视线、肩颈和上半身运动,并以低延迟视频流呈现。

初始判断:如果只做 lip-sync,会太窄;如果直接做 full body,会过重;如果直接用 diffusion 视频生成,会被实时性卡住。更合理的切入点是非像素直出的中间运动表示
第一轮
Brainstorm 过程:从“做什么数字人”拆成二维 taxonomy

数字人文献最容易混乱的地方,是把论文标题里的任务名当成技术边界。Talking HeadPortrait Animation 并没有本质区别:它们都在生成头部或肖像区域的运动与外观,差异主要来自驱动条件和运动来源。音频驱动时常被叫 talking head,视频驱动或单图驱动时常被叫 portrait animation,但输出空间高度重合。

所以第一步不是列论文,而是建立一张二维图:横轴改成驱动条件 / 运动来源,纵轴是技术表示。这样才能判断一篇论文是候选主路线、可借鉴模块,还是只是对照基线。

横轴:驱动条件 / 运动来源

驱动条件典型输入输出与面试数字人的关系
已有视频 + 新音频保留原视频头动、身体和背景,主要重绘嘴部或局部面部。适合作为 lip-sync / dubbing 模块或评价基线,但不足以产生自然面试官。
参考图像 + 音频从单图身份出发,由音频生成口型、表情和头动。覆盖 talking head / talking portrait 主流论文,但肩颈、身体和长时稳定性仍需额外设计。
参考图像 + 驱动视频源图提供身份,驱动视频提供表情、头动、视线或 pose。适合复用外部运动和验证 renderer,不等价于实时音频驱动数字人。
注册资产 + 实时控制信号一次注册身份资产,运行时输入音频、语义状态、视线、姿态或表情控制。最贴近面试场景:允许一次注册,换取身份稳定、低延迟和可控降级。
文本 / 语义状态 + 音频LLM 状态、TTS 音频和对话意图共同驱动 motion packet。这是面试数字人的关键增量:不仅要对嘴,还要表达倾听、追问、鼓励和停顿。
全身动作脚本或环境交互生成完整身体、手势、站姿和空间动作。长期方向,但当前面试 MVP 不应从 full body 起步。

表 1:Talking head 与 portrait animation 更适合作为命名习惯,而不是 taxonomy 的硬边界;真正区分路线的是运动从哪里来。

taxonomy 修正:不要把 talking head 和 portrait animation 作为并列大类;它们共享输出空间。更稳定的分类方式是先看驱动条件,再看底层表示和渲染器。

纵轴:技术表示

技术路线核心表示优点主要风险
Motion Space / Latent Motion低维运动 token、latent motion、表情/头动/姿态序列。适合流式、可控、低延迟;可先生成运动再渲染。需要把运动表示设计到足够表达半身和情绪。
3DGS / NeRF注册身份的可渲染 3D 表示,以及音频驱动的变形场。身份一致性强,渲染快,适合一次注册资产。训练/建模成本高,泛化和半身动作要额外处理。
Keypoint / Skeleton / Pose2D/3D 关键点、3DMM 系数、隐式关键点或上半身 pose。工程直观、可解释、易控制,适合桥接音频和渲染。关键点本身不保真,最终质量依赖后端渲染器。
Rig骨骼、blendshape、表情控制器和动画状态机。工业稳定,实时性好,适合产品化角色。资产制作重,照片级自然度和自动注册难度高。
Diffusion / Video Generation像素或潜空间视频扩散模型。画质、自然度和风格泛化强。实时性和长时稳定性弱,不适合作为实时主链路。
System PipelineASR、LLM、TTS、运动生成、渲染、推流的端到端系统。决定真实产品体验,可做延迟分解和降级策略。如果没有底层运动/渲染路线,会变成工程拼装。
第二轮
从种子论文扩展路线图:不是堆论文,而是找可迁移机制

种子论文从四个方向出发:Wav2Lip 代表 lip-sync 专家约束,VASA-1 代表从音频到 latent motion 的视频画像路线,Ditto / DETTOL 代表轻量可流式的 latent talking head,EGSTalker 代表 3DGS 注册式实时渲染路线。围绕这些种子,再补齐每条路线 2–3 篇代表论文,形成可比较矩阵。

flowchart LR
    A["Wav2Lip\nLip-sync Expert"] --> B["同步评价与口型约束"]
    C["VASA-1\nLatent Motion"] --> D["面部动力学 + 头动控制"]
    E["Ditto / DETTOL\nStreaming Talking Head"] --> D
    F["Teller\nAutoregressive Motion"] --> D
    G["EGSTalker\n3DGS Deformation"] --> H["注册身份 + 实时渲染"]
    I["GaussianTalker"] --> H
    J["RAD-NeRF / GeneFace++"] --> H
    K["LivePortrait / SadTalker"] --> L["Keypoint / 3DMM / Pose"]
    M["AniPortrait / EchoMimic / Hallo"] --> N["Diffusion Portrait"]
    D --> O["候选主路线:Motion Space + Renderer"]
    H --> O
    L --> O

方法级对比矩阵

路线代表论文核心表示训练 / 推理流程实时性证据半身扩展性判断
口型同步基线Wav2Lip音频 mel 特征 + 视觉嘴部帧;核心是冻结的 lip-sync expert。训练时用同步专家判别器约束生成嘴部;推理时对已有视频重绘口型。论文强调 in-the-wild lip-sync 精度,并开源模型#Wav2Lip弱。它解决嘴,不解决头动、表情、肩颈和注册身份。
Motion SpaceVASA-1从音频和控制信号生成面部动力学与头部运动,再驱动画像视频。先学习可控 latent dynamics,再把运动映射到头像视频;更像“先运动、后渲染”。论文目标明确指向实时 talking face generation#VASA-1中到强。核心运动空间可扩展到头肩,但需要额外身体/肩颈表示。
Motion SpaceDitto / DETTOL轻量 latent motion 或 motion prior,强调实时、流式、跨身份驱动。先把音频映射成紧凑运动,再由轻量渲染链路生成 talking head。路线目标与实时互动高度一致,适合做系统主链路候选#Ditto强。比像素 diffusion 更容易加入 gaze、head pose、shoulder pose。
Motion SpaceTeller自回归运动生成,把音频流转成连续 portrait motion。流式音频到运动,再逐帧驱动肖像动画;论文对比 diffusion 方法的推理成本。论文报告一秒视频推理约 0.92s,并显著快于 Hallo#Teller中到强。它天然面向 streaming,但半身仍取决于运动表示覆盖范围。
3DGSEGSTalker静态 3D Gaussian 头部表示 + 音频驱动 Gaussian deformation。两阶段:先用 hash triplane / KAN 初始化静态 Gaussian,再用 ESAA 融合音频和空间特征预测变形。只需 3–5 分钟训练视频,目标是实时 3DGS talking head#EGSTalker中。身份稳定强,但主要是头部;肩颈和上半身需要额外 Gaussian / pose 设计。
3DGSGaussianTalkercanonical 3DGS + shared implicit feature + spatial-audio attention。把 Gaussian 属性编码到共享隐式特征,与音频特征融合,逐帧预测 Gaussian 属性偏移。摘要报告最高 120 FPS 渲染速度#GaussianTalker中。渲染速度好,适合注册资产;半身扩展仍需要 body-aware 表示。
NeRFRAD-NeRF3D spatial grid + 2D audio grid;torso 用轻量 pseudo-3D deformable module。把 talking portrait 分解成低维音频—空间特征网格,头和躯干分别建模。论文目标是 real-time neural radiance talking portrait#RAD-NeRF强于纯头部 NeRF,因为显式处理 torso,但训练成本仍高于 2D motion 路线。
NeRFGeneFace++音频到 3DMM / landmark motion,再到高效 NeRF renderer。先预测稳定 facial motion,加入 pitch contour、temporal loss 和 outlier regulation,再用高效 NeRF 渲染。论文称实现 stable and real-time talking face generation#GeneFace++中。稳定性好,但半身主要还不是它的核心目标。
Upper-body NeRFSyncAnimationAudioPose Syncer + AudioEmotion Syncer + upper-body/head NeRF renderer。音频同时驱动 pose、expression、upper body、head 和 lip shape,再由 renderer 合成。论文报告 RTX 4090 上 41 FPS,并强调 audio-sync upper body movement#SyncAnimation强。它是少数直接把上半身运动纳入实时目标的路线。
Keypoint / PoseLivePortrait隐式关键点、stitching、eyes / lip retargeting。基础模型学习隐式关键点驱动,第二阶段冻结主干只训练小 MLP 控制模块。论文报告 RTX 4090 + PyTorch 上 12.8ms 推理,并开源模型#LivePortrait中。非常适合做可控渲染器或 motion-to-video 后端,但音频到半身运动需另接。
3DMM / PoseSadTalker3DMM motion coefficients:head pose 与 expression。ExpNet 学表情,PoseVAE 学头动,再映射到 3D-aware face render。偏离线生成,不是严格实时主路线#SadTalker弱到中。表示可解释,但主要停留在脸和头。
DiffusionAniPortrait / Hallo / EchoMimiclandmark、mask、audio embedding 与 diffusion motion module。通常先从音频得到 landmark / motion condition,再由扩散模型生成高质量 portrait video。视觉质量强,但常规扩散推理较慢;实时版本需要专门加速或蒸馏#AniPortrait中。可生成更自然画面,但不适合作为实时面试主链路。
第三轮
按面试场景重新打分:实时性比单帧画质更重要

论文路线图给出的是“可用材料”,不是最终答案。面试场景要用另一套权重重排:实时性第一,半身扩展性第二,身份稳定第三,工程成本第四,论文/开源可验证性第五。

候选路线实时性半身扩展性身份稳定工程成本可验证性结论
Motion Space / Latent Motion高:先生成低维运动,天然适合流式。高:可扩展头动、视线、表情、肩颈和手势。中:身份稳定依赖后端渲染器。中:需要定义 motion schema 和训练数据。中:VASA-1、Ditto、Teller 提供方向证据。第一候选:最适合面试实时系统主链路。
3DGS / NeRF 注册资产中到高:渲染快,但注册训练有成本。中到高:RAD-NeRF / SyncAnimation 证明 torso 可纳入。高:注册资产天然保持身份。中到高:需要采集、重建、优化和部署。高:EGSTalker、GaussianTalker、RAD-NeRF、GeneFace++ 证据充分。第二候选:适合作为高保真注册渲染后端。
Keypoint / Skeleton / Pose高:关键点和 pose 很轻。中:扩展半身容易,但渲染质量不由它保证。中:依赖 appearance renderer。低到中:工程可控。高:LivePortrait、SadTalker、AniPortrait 资料充分。第三候选:适合作为控制层,不宜单独作为完整路线。
Rig / Blendshape很高:游戏/实时动画成熟。高:半身动作可控。高:角色资产稳定。高:资产生产与自动注册成本大。中:工业经验强,论文链相对弱。适合产品工程后期,不适合作为研究主线。
Diffusion / Video Generation低到中:除非蒸馏或异步生成。中:可生成 portrait,但控制半身和长时稳定困难。中:长视频身份漂移风险高。高:推理成本和稳定性压力大。高:Hallo、EchoMimic、AniPortrait 等资料丰富。适合质量上限参考,不适合作为实时主链路。

路线排序

第一候选:Motion Space / Latent Motion第二候选:3DGS / NeRF 注册式渲染第三候选:Keypoint / Skeleton / Pose 控制层。最合理的系统不是三选一,而是 Motion Space 作为实时决策层,3DGS/NeRF 或 LivePortrait 类 renderer 作为身份稳定的渲染层。

最终方案
建议路线:Motion Space 主链路 + 注册资产渲染器

面试数字人的 MVP 不应从“直接生成像素视频”开始,而应从实时运动生成开始。系统先把 TTS 音频、文本语义和对话状态转成低维 motion packet:口型、表情、头动、视线、眨眼、肩颈姿态、停顿状态。然后再把 motion packet 交给注册式 renderer:可以是 3DGS/NeRF,也可以是 LivePortrait 类隐式关键点渲染器。

flowchart TD
    A["候选人语音"] --> B["ASR"]
    B --> C["LLM 面试官策略"]
    C --> D["TTS 流式音频"]
    C --> E["语义状态\n提问/追问/倾听/鼓励"]
    D --> F["Motion Generator\nlip + expression + gaze + head + shoulder"]
    E --> F
    G["一次注册身份资产\nphoto / short video / 3DGS / portrait template"] --> H["Identity Renderer"]
    F --> H
    H --> I["WebRTC / RTMP 视频流"]
    I --> J["面试前端"]

下一步研究问题

  1. 定义 motion packet:把口型、表情、视线、头动和肩颈姿态拆成可流式预测的字段。
  2. 确定注册资产形态:短视频训练 3DGS/NeRF,还是单图 + portrait renderer,取决于部署成本。
  3. 建立实时评估:除 FID/FVD 外,还要评估同步、身份、运动自然度、稳定性、延迟和吞吐。
  4. 做降级策略:网络抖动或模型超时时,保持身份和轻微 idle motion,而不是让视频冻结。
一句话结论:面试数字人的核心不是“生成更美的一段视频”,而是把对话状态稳定翻译成可渲染的实时半身运动

参考来源

  • Prajwal, K. R. et al. (2020). A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild. ACM MM. arXiv
  • Xu, S. et al. (2024). VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time. Microsoft Research. Project
  • Liu, Z. et al. (2024). Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis. Project
  • Zhen, R. et al. (2025). Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation. CVPR. PDF
  • Zhu, T. et al. (2025). EGSTalker: Real-Time Audio-Driven Talking Head Generation with Efficient Gaussian Deformation. arXiv
  • Cho, K. et al. (2024). GaussianTalker: Real-Time High-Fidelity Talking Head Synthesis with Audio-Driven 3D Gaussian Splatting. arXiv
  • Tang, J. et al. (2022). Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition. arXiv
  • Ye, Z. et al. (2023). GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation. arXiv
  • Liu, Y. et al. (2025). SyncAnimation: A Real-Time End-to-End Framework for Audio-Driven Human Pose and Talking Head Animation. arXiv
  • Guo, J. et al. (2024). LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control. arXiv
  • Zhang, W. et al. (2023). SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation. CVPR. arXiv
  • Wei, H. et al. (2024). AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation. arXiv