ESC
输入关键词搜索文章
目录

3DGS 与 NeRF 数字人路线

从专人建模到实时音频驱动渲染
系列(四)· 显式可渲染表示 · Person-specific Avatar · Gaussian Deformation
3DGS显式可渲染表示
NeRF→3DGS实时渲染转折
Mesh/Rig动作与资产接口
16篇论文与 Survey 总账
Chapter Map

本篇在系列中的位置

上一篇讨论的是运动空间路线:模型把音频映射到 3DMM 系数、面部 latent 或 motion representation,再由渲染器还原目标身份。本文进入另一条必须单独看的路线:3D/显式可渲染资产。它既包括 NeRF 与 3D Gaussian Splatting 这类可渲染表示,也包括 SMPL-X、FLAME、ARKit、BVH 和 motion tokens 这类可驱动资产接口。它的核心问题不是“怎样零样本生成任意人”,而是“当目标人物、角色资产或身体骨架相对固定时,能不能先建立一个可复用资产,再用音频、表情、身体动作和对话语义实时驱动它”。AD-NeRF、RAD-NeRF、ER-NeRF 把 talking head 带入神经辐射场;TalkingGaussian、GaussianTalker、GSTalker 与 EGSTalker 把路线推进到 3DGS deformation;SentiAvatar、EMAGE、AudioAvatar 和 Co-speech 3D Meshes 则说明 3D 资产路线不能只看头像渲染,还必须覆盖 rigged avatar、motion controller 和 full-body avatar。#Guo-et-al.-2021-AD-NeRF #Tang-et-al.-2022-RAD-NeRF #Li-et-al.-2023-ER-NeRF #Li-et-al.-2025-TalkingGaussian #Cho-et-al.-2024-GaussianTalker #Chen-et-al.-2024-GSTalker #Zhu-et-al.-2025-EGSTalker #Zhang-et-al.-2026-SentiAvatar #Liu-et-al.-2024-EMAGE #Xing-et-al.-2026-AudioAvatar #Alexanderson-et-al.-2024-CoSpeechMesh

阅读目标

  • 前情回顾:motion space 让“怎么动”变成可生成变量,但外观仍依赖渲染器。
  • 本篇问题:固定身份数字人为什么值得先建三维可渲染资产,以及 3DGS 如何把实时渲染变成路线优势。
  • 下一篇衔接:3DGS/NeRF 适合专人资产;扩散基模路线则面向更通用、更大自由度的视频生成。
Part 1

路线定义:先训练一个人,再实时驱动这个人

NeRF/3DGS 数字人与单图 talking head 的最大差别,是它通常采用 person-specific 设定:系统先收集目标人物一小段视频,训练出这个人的三维可渲染表示;上线时再输入新音频、视角或控制信号,驱动这个表示生成说话视频。这样做牺牲了“随便给一张图就能生成”的便利性,却换来更强的身份一致性、三维稳定性和可控渲染边界。#Zhu-et-al.-2025-EGSTalker #Guo-et-al.-2021-AD-NeRF

NeRF 与 3DGS 在这里分别是什么

NeRF(Neural Radiance Field)把一个人头表示成连续神经场:给定空间位置和视角,网络预测颜色与密度,再通过体渲染合成图像。3D Gaussian Splatting 则把头部表示成大量 Gaussian primitives,每个 Gaussian 携带位置、尺度、旋转、不透明度和球谐颜色参数,再通过 rasterization 快速渲染。前者更像“用网络查询场”,后者更像“把很多可学习的半透明椭球投到屏幕上”。#Kerbl-et-al.-2023-3DGS

这条路线的业务边界很清楚:如果产品是固定主播、客服形象、品牌代言人、虚拟老师或长期运营的 IP 角色,前期花几分钟视频和数小时训练成本是可以接受的;如果产品要求用户上传任意一张照片后立即生成,person-specific NeRF/3DGS 就不是最合适的第一选择。换句话说,它不是通用生成模型的替代品,而是固定身份数字人的高质量渲染资产路线。

路线训练对象生成时输入优势主要限制
局部换嘴通用模型原视频 + 新音频便宜、稳定、工程链路短头动、表情和三维一致性受原视频限制
motion space通用或半通用模型参考图 + 音频 + 运动条件低维、可控、实时潜力强渲染器和运动表示限制画面上限
NeRF / 3DGS目标人物资产新音频、眼部/姿态/相机条件身份稳定、三维一致、适合专人实时头像冷启动训练、资产维护和授权成本高
视频扩散基模大规模视频先验音频、参考帧、文本、历史状态自由度高,可生成身体与场景成本高,长时一致和实时化困难
Part 2

先分清两张表:任务 taxonomy 和技术路线 taxonomy

3D/显式资产路线容易被误读成“NeRF 和 3DGS 论文集合”。更准确的切法应该先看任务,再看技术路线。任务 taxonomy 回答“用户到底要生成什么”:固定身份 talking portrait、实时 3DGS talking head、全身/手势/表情 motion controller、mesh-conditioned co-speech video、单图生成 3D avatar,还是一个可编辑的 hybrid asset system。技术路线 taxonomy 回答“系统用什么中间表示和接口实现它”:NeRF、3DGS、rigged mesh、SMPL-X/FLAME/ARKit motion controller、mesh-conditioned rendering,或 mesh/rig + 3DGS/NeRF + diffusion prior 的混合系统。#Xu-et-al.-2024-AvatarSurvey #Wu-et-al.-2024-3DGSSurvey #Ding-et-al.-2024-TalkingHeadSurvey

任务类型典型输入典型输出代表工作评测重点
Person-specific talking portrait目标人物短视频 + 新音频固定身份说话头像/上半身视频AD-NeRF, RAD-NeRF, ER-NeRF身份、口型、视角一致、PSNR/LPIPS/FPS
Real-time 3DGS talking head视频、音频、眼动或视角条件实时 Gaussian talking headTalkingGaussian, GaussianTalker, GSTalker, EGSTalker训练时间、FPS、嘴部稳定、同步
Rigged avatar / motion controller语音、文本、行为标签、历史动作body/hand/face motion、BVH 或 JSONSentiAvatar, EMAGE, Speech-driven Gestures动作自然、语义匹配、可导出、可接现有资产
Mesh-conditioned co-speech video音频 + 3D mesh 或 avatar assets半身或上身说话视频Co-speech 3D Meshes身体/手部几何 grounding、视频质量、速度
Single-image / generated 3D avatar单图、音频、视频先验full-body talking avatar video 或 3D assetAudioAvatar身份、多视一致、全身运动、冷启动成本
技术路线核心表示适合任务优势限制
NeRF talking portrait隐式辐射场 / hash grid专人 talking portrait三维一致、高保真训练和体渲染成本高,编辑接口弱
3DGS talking headGaussian primitives + deformation实时 talking head渲染快、显式、训练成本下降Gaussian 本身没有骨架、拓扑和语义部件
Rigged mesh / motion controllerSMPL-X、FLAME、ARKit、joint rotations、motion tokens全身手势、表情、对话 motion动作可解释、可导出、可接游戏/直播资产photoreal rendering 依赖外部 renderer
Mesh-conditioned videoSMPL-X mesh、depth、normal、UV textureco-speech upper-body video身体和手部几何 grounding 强不等于自由视角 3D asset
Hybrid asset systemmesh/rig + NeRF/3DGS + diffusion/controller可控高保真数字人兼顾外观、控制和生成自由度系统复杂,接口和评测还未统一

SentiAvatar 应该放在这张图里,但不能简单归入 NeRF 或 3DGS。它的输出是 body joint rotations、hand motion、ARKit facial coefficients 和 BVH/JSON;它更像 3D avatar 的 motion foundation model 与 interactive controller。它与 3DGS/NeRF 的关系是上下游互补:SentiAvatar 负责“怎么动”,3DGS/NeRF 或游戏引擎资产负责“怎么渲染”。#Zhang-et-al.-2026-SentiAvatar

Part 3

从 NeRF 到 3DGS:路线转折来自“渲染速度”

NeRF 阶段:先证明三维场能被语音驱动

AD-NeRF 的核心贡献,是把 talking head 从二维图像翻译问题推进到三维神经场问题。它把目标人物拆成 head NeRF 与 torso NeRF:头部负责嘴形、面部和视角相关外观,躯干分支负责肩颈和背景衔接;音频特征不再只是驱动一个 2D generator,而是参与查询神经辐射场的动态颜色和密度。这样做的好处是,模型可以在同一个三维场里维持身份、姿态和背景一致;代价是每个身份都要训练一个场,体渲染也非常慢。EGSTalker 汇总的量级很直观:AD-NeRF 训练时间达到 167.6h,推理只有 0.04 FPS。#Guo-et-al.-2021-AD-NeRF #Zhu-et-al.-2025-EGSTalker

AD-NeRF head and torso radiance fields
图 1:AD-NeRF 的关键不是“音频生成头像”,而是把目标人物拆成 head / torso 两个音频条件神经辐射场,先建立 person-specific 三维表示,再用新音频驱动渲染(来源:arXiv source 中的 Figure/Framework.pdf 裁图)。

RAD-NeRF 和 ER-NeRF 都在回答同一个问题:如果 NeRF 的三维一致性有价值,怎样让它更接近实时?RAD-NeRF 用 audio-spatial decomposition 把音频相关动态与空间表示拆开,并引入更高效的编码与训练策略,目标是减少每条 ray 上反复查询神经网络的成本。ER-NeRF 则进一步强调 region-aware:嘴部、面部其他区域、躯干对音频的敏感程度并不一样,模型应该把区域差异显式纳入表示,而不是让所有空间位置以同样方式响应语音。两者都不是路线终点,但它们把问题从“能不能用 NeRF 做 talking head”推进到“如何把三维场的不同区域和音频条件解耦”。#Tang-et-al.-2022-RAD-NeRF #Li-et-al.-2023-ER-NeRF

RAD-NeRF audio-spatial decomposition network
图 2:RAD-NeRF 把 NeRF talking portrait 的核心矛盾转向实时化:保留三维场的一致性,同时通过 audio-spatial decomposition 和高效表示降低训练与渲染成本(来源:arXiv source 中的 figs/network.pdf 裁图)。
ER-NeRF region-aware framework
图 3:ER-NeRF 的 region-aware 框架强调不同面部区域对音频的响应不同,因此要把区域建模、音频条件和高效 NeRF 表示结合起来(来源:arXiv source 中的 iccv2023AuthorKit/imgs/main_.png)。

3DGS 阶段:把渲染瓶颈从体采样换成 rasterization

3DGS talking head 的出现,不是因为 NeRF 的问题定义错了,而是因为 NeRF 的渲染方式太贵。3D Gaussian Splatting 把场表示成一组显式 Gaussian primitives,渲染时把这些 primitives 投影到屏幕并做 rasterization;对数字人来说,这意味着固定身份的外观资产仍然可以先训练出来,但实时阶段不用沿每条 ray 反复采样神经场。TalkingGaussian 把“结构持久性”作为核心目标:动态表情不应该破坏头部基础结构,因此它用 deformation-based radiance field 框架驱动 Gaussian,而不是每帧重新生成外观。#Kerbl-et-al.-2023-3DGS #Li-et-al.-2025-TalkingGaussian

TalkingGaussian framework
图 4:TalkingGaussian 的重点是 structure-persistent deformation:先保留目标人物的 3DGS 结构,再用音频驱动 deformation 生成说话头,而不是直接重绘像素(来源:arXiv HTML 原图 extracted/5712106/imgs/main.png)。

GaussianTalker 和 GSTalker 进一步把问题具体化为“音频如何控制 Gaussian”。GaussianTalker 不是简单把音频直接映射到像素,而是先把音频翻译为 speaker-specific FLAME motion,再用 FLAME 驱动绑定的 Gaussians 渲染说话头;这使音频、身份化运动和显式 3D 表示之间有了可解释接口。GSTalker 则把目标压得更工程化:用 deformable Gaussian Splatting 做快速训练和实时渲染,论文 HTML 中展示了 GSTalker 与 AD-NeRF、RAD-NeRF、ER-NeRF 的同帧对比,说明 3DGS 路线开始把训练时间、FPS 和视觉质量放进同一个工程坐标系里比较。#Cho-et-al.-2024-GaussianTalker #Chen-et-al.-2024-GSTalker

GaussianTalker framework
图 5:GaussianTalker 的核心是 speaker-specific audio-driven 3DGS:音频经 motion translator 预测 FLAME 参数,再驱动绑定到 FLAME 的 Gaussians 渲染说话视频(来源:arXiv HTML Figure 2 原图 x2.png)。
GSTalker pipeline
图 6:GSTalker 以 deformable Gaussian Splatting 组织音频驱动 talking face,把快速训练和实时渲染作为核心卖点(来源:arXiv HTML 原图 extracted/5565773/pipeline3.png)。

EGSTalker 阶段:当渲染足够快,瓶颈转向音频—空间交互

EGSTalker 的实验表提供了一个直观量级:AD-NeRF 训练时间为 167.6h、FPS 为 0.04;ER-NeRF 训练时间为 8.9h、FPS 为 15.21;TalkingGaussian、GaussianTalker 和 EGSTalker 这类 3DGS 方法则把 FPS 推到 70.42、59.24 和 68.51。这里不能只看“谁更快”,而要看路线变化:从 NeRF 到 3DGS,核心收益是把渲染从昂贵的体采样转向高效 rasterization;从早期 3DGS 到 EGSTalker,核心问题又变成如何让音频条件以足够低的代价影响大量空间 primitives。#Zhu-et-al.-2025-EGSTalker #Li-et-al.-2025-TalkingGaussian #Cho-et-al.-2024-GaussianTalker

EGSTalker visual comparison
图 7:EGSTalker 把固定身份 talking head 放到 3DGS 框架中,目标是在清晰度、身份一致、嘴形同步和实时性之间取得平衡(来源:EGSTalker 论文原图)。
阶段代表工作核心表示关键问题路线意义
NeRF talking portraitAD-NeRF音频条件神经辐射场训练与渲染成本高证明三维场可用于音频驱动头像
实时 NeRF 优化RAD-NeRF, ER-NeRF分解/区域感知 NeRF如何加速并保持区域运动自然把 NeRF 推向实时 talking portrait
3DGS talking headTalkingGaussian, GaussianTalker, GSTalker动态 Gaussian primitives音频如何控制 Gaussian deformation把渲染速度变成产品优势
高效 3DGS deformationEGSTalker静态 Gaussian + 音频驱动 deformation如何降低 spatial-audio interaction 成本把 3DGS talking head 做到更稳的实时折中
Part 4

统一结构:资产层、驱动层、渲染层分开看

前面按时间线看完代表论文后,可以把 3D/显式资产路线压缩成三层。第一层是 asset layer:系统从目标人物视频中学习 head NeRF、hash-grid radiance field 或 Gaussian primitives,用来保存身份、几何、肤色、发型和基础外观。第二层是 drive layer:音频、眼部状态、相机姿态、FLAME/ARKit 系数或历史状态被编码成动态控制信号。第三层是 render layer:NeRF 用 volume rendering 合成图像,3DGS 用 rasterization 渲染变形后的 Gaussian。#Guo-et-al.-2021-AD-NeRF #Cho-et-al.-2024-GaussianTalker #Chen-et-al.-2024-GSTalker #Zhu-et-al.-2025-EGSTalker

EGSTalker framework
图 8:EGSTalker 的两阶段框架可以作为 3DGS talking head 的典型结构来读:先建立静态 Gaussian 头部资产,再用音频、眼部和相机条件预测 Gaussian deformation(来源:EGSTalker 论文原图)。

这三层结构比“某篇论文用了什么模块”更重要。AD-NeRF 的 head/torso NeRF、RAD-NeRF 的 audio-spatial decomposition、ER-NeRF 的 region-aware 表示、GaussianTalker 的 audio-to-FLAME-to-Gaussian、GSTalker 和 EGSTalker 的 deformable Gaussian,本质上都在调整三层之间的接口:资产层保存什么,驱动层控制什么,渲染层以多大代价把它变成视频。#Tang-et-al.-2022-RAD-NeRF #Li-et-al.-2023-ER-NeRF #Cho-et-al.-2024-GaussianTalker #Chen-et-al.-2024-GSTalker

用抽象形式写,这条路线可以表示为:

$$\mathcal{G}_{id}=F_{asset}(V_{id}), \qquad \Delta\mathcal{G}_{t}=F_{drive}(A_{1:t}, e_t, c_t, \mathcal{G}_{id}), \qquad \hat{I}_t=Render(\mathcal{G}_{id}+\Delta\mathcal{G}_t).$$

其中 \(V_{id}\) 是目标人物训练视频,\(A_{1:t}\) 是音频条件,\(e_t\) 是眼部或表情辅助条件,\(c_t\) 是相机/姿态条件。关键不是公式本身,而是分工:身份资产提前训练,实时阶段只预测与当前音频相关的动态偏移。

flowchart LR
  V["目标人物训练视频"] --> A["资产层:NeRF / 3DGS / mesh"]
  A --> G["身份、几何、纹理、基础外观"]
  S["新音频"] --> D["驱动层:audio / eye / pose / FLAME"]
  E["表情、眼神、相机、历史状态"] --> D
  G --> D
  D --> O["动态层:radiance field 或 Gaussian deformation"]
  O --> R["渲染层:volume rendering / rasterization"]
  R --> I["Talking head / avatar video"]
  

这个结构解释了为什么 3DGS 路线特别适合“固定人设”的商业数字人。系统不需要每帧重新想象这个人长什么样,只要让一个已经建好的资产按照音频动起来。它也解释了主要工程风险:训练视频如果没有覆盖足够表情、头动和视角,资产会稳定地复现训练集偏差;授权和隐私也更敏感,因为系统保存的是一个可复用的目标人物资产。

Part 5

证据怎么读:速度、同步和画质不是同一个问题

3DGS 路线的优势首先体现在速度上。EGSTalker 的 self-driven 实验给出了一个较完整的量级坐标:AD-NeRF 训练 167.6h、推理 0.04 FPS;ER-NeRF 训练 8.9h、15.21 FPS;TalkingGaussian 训练 1.5h、70.42 FPS;GaussianTalker 训练 4.5h、59.24 FPS;EGSTalker 训练 3.7h、68.51 FPS。这个表不能简单读成“3DGS 全面胜出”,而应该读成路线瓶颈迁移:NeRF 阶段瓶颈主要是体渲染和每条 ray 的网络查询;3DGS 阶段瓶颈转向音频条件如何低成本控制大量空间 primitives。#Zhu-et-al.-2025-EGSTalker #Guo-et-al.-2021-AD-NeRF #Li-et-al.-2023-ER-NeRF

Efficient Spatial-Audio Attention
图 9:EGSTalker 的 ESAA 模块说明 3DGS 之后的新瓶颈:渲染快了,audio-to-Gaussian deformation 里的空间—音频交互仍然要被压低成本(来源:EGSTalker 论文原图)。
Method表示路线PSNR ↑FID ↓LMD ↓LSE-C ↑训练时间 ↓FPS ↑
AD-NeRFNeRF25.79418.2892.9325.105167.6h0.04
ER-NeRFRegion-aware NeRF26.0477.6372.5477.0548.9h15.21
TalkingGaussian3DGS35.213.3982.5386.9631.5h70.42
GaussianTalker3DGS36.0342.4312.6146.9644.5h59.24
EGSTalker3DGS + ESAA36.0702.4242.5366.9663.7h68.51

指标还说明了一个容易忽略的问题:像素重建质量不等于同步质量。EGSTalker 的消融中,去掉 ESAA 和 PPE 后 PSNR 反而从 36.070 升到 36.415,LPIPS 从 0.0223 降到 0.0218;但 LMD 从 2.536 变差到 2.638,LSE-C 从 6.966 降到 6.430。这说明模型更会复原平均外观,不代表更会跟随当前音频做正确口型。#Zhu-et-al.-2025-EGSTalker

EGSTalker qualitative results
图 10:EGSTalker 的多方法可视化对比。3DGS 路线的目标不是单项指标炫技,而是在身份、清晰度、嘴形和速度之间取得可部署折中(来源:EGSTalker 论文原图)。
Part 6

把头像放回数字人系统:motion controller 与 full-body asset

如果只看 NeRF/3DGS talking head,3D 资产路线会被误解成“更快的头像渲染器”。但完整数字人还需要身体、手势、情绪、表情和对话行为。SentiAvatar 的定位正好补上这一层:它不是把语音直接渲染成 RGB 视频,而是把文本、语音、行为标签和上下文转成 body joint rotations、hand motion、ARKit facial coefficients,并输出 BVH/JSON 这类可接入现有 3D 资产与渲染引擎的控制流。它报告 SuSuInterActs 包含 21K clips、约 37h 交互动作数据,并在 6s motion 输出上约 0.3s 完成推理;这些数字说明它更像实时 avatar controller,而不是视频渲染论文。#Zhang-et-al.-2026-SentiAvatar

EMAGE 与 Speech-driven 3D Conversational Gestures 进一步说明,speech-driven avatar 的难点不是嘴形一个局部,而是 face、body、hands 和 global motion 的协同。EMAGE 使用 SMPL-X/FLAME 风格的整体动作表示,围绕 BEAT2 这样的多说话人动作数据建模;早期 speech-driven gesture 工作则从视频中学习 3D conversational gestures,把 audio-to-motion 作为独立问题来处理。它们和 3DGS/NeRF 可以组合:controller 输出动作,renderer 负责外观。#Liu-et-al.-2024-EMAGE #Yoon-et-al.-2021-SpeechGestures

Co-speech 3D Meshes 代表另一种中间形态:系统先预测 SMPL-X 风格的 mesh,再把 depth、normal、UV texture 等几何条件送入视频生成器。它不是自由视角、可复用的完整 3D avatar,但它证明 mesh 可以作为 speech-driven upper-body video 的强几何约束。AudioAvatar 则把单图 full-body avatar 与 3DGS particle motion、diffusion teacher 结合起来,试图降低“必须先拍一段专人视频再训练”的门槛;但它在本文证据链里主要支撑的是 full-body / hybrid asset 方向,不能仅凭 FID/FVD 推断已经满足端到端实时交互。#Alexanderson-et-al.-2024-CoSpeechMesh #Xing-et-al.-2026-AudioAvatar

flowchart LR
  A["语音 / 文本 / 对话上下文"] --> C["Motion controller"]
  C --> M["Face coefficients / joints / hands / BVH"]
  M --> R1["Rigged mesh / game engine avatar"]
  M --> R2["NeRF / 3DGS deformation"]
  M --> R3["Mesh-conditioned video generator"]
  R1 --> O["Interactive digital human"]
  R2 --> O
  R3 --> O
  

这张接口图也解释了 SentiAvatar 的归类:它依赖 3D avatar 和 motion asset,但它不是 NeRF/3DGS 表示本身。更好的组织方式是:NeRF/3DGS 是外观与渲染层,SentiAvatar/EMAGE 是动作与控制层,mesh-conditioned video 和 AudioAvatar 是 full-body / hybrid asset 的过渡形态。

指标族衡量对象适合任务常见误用
PSNR / SSIM / LPIPS像素与感知重建质量NeRF/3DGS talking portrait跨数据集直接排名,忽略同步和身份
FID / FVD图像或视频分布质量视频生成、full-body avatar把分布质量等同于可控性
LSE-C / LSE-D / LMD唇同步和 landmark 误差audio-driven talking head把口型同步等同于表情自然
FGD / BC / Diversity / R@K动作分布、节奏和语义检索gesture / motion controller和 PSNR/FPS 混在一张表里比较
FPS / latency模型或渲染速度实时系统把 renderer FPS 当作端到端交互延迟

因此,算力也要分层看。AD-NeRF、RAD-NeRF、ER-NeRF 说明 NeRF talking portrait 的瓶颈主要在训练和体渲染;GSTalker 与 EGSTalker 把训练压到小时级,并把渲染推到几十 FPS 量级;SentiAvatar 的 6s motion 输出约 0.3s 说明 controller 可以很快,但不包含最终 photoreal renderer;AudioAvatar 在本文证据链中不能仅凭 FID/FVD 断言它已满足实时交互。正确读法是:先确认它报告的是 motion、renderer、generator 还是完整端到端系统,再决定它能支撑哪种产品。#Guo-et-al.-2021-AD-NeRF #Tang-et-al.-2022-RAD-NeRF #Li-et-al.-2023-ER-NeRF #Chen-et-al.-2024-GSTalker #Zhu-et-al.-2025-EGSTalker #Zhang-et-al.-2026-SentiAvatar #Xing-et-al.-2026-AudioAvatar

Part 7

产品选型:3D 资产路线适合“固定资产”,不适合所有场景

3DGS/NeRF 路线最适合固定身份、高频使用、画质和稳定性要求高的数字人:例如金融客服、虚拟讲师、品牌主播、企业 IP、长期直播助手和可授权明星分身。此时前期采集和训练不是浪费,而是把身份一致性、三维稳定性和渲染速度沉淀为可复用资产。EGSTalker 使用 3–5 分钟训练视频,并报告 3.7h 训练耗时与 68.51 FPS,这类数字正好说明它更像“资产生产管线”,而不是“一次性生成工具”。#Zhu-et-al.-2025-EGSTalker

不适合的场景也同样明确。第一,用户上传任意照片立即生成,需要的是单图 talking head 或视频扩散基模,而不是先训练一个 NeRF/3DGS 资产。第二,广告级全身表演、复杂镜头、多人互动和动态背景,更依赖视频基模或全身生成路线。第三,如果产品主要追求低成本口型同步,Wav2Lip、MuseTalk 或轻量局部重绘仍然更简单。3DGS 的优势来自“固定人 + 高频调用 + 可训练资产”,离开这个前提,它的冷启动成本会变成负担。

选型判断

  • 选 3DGS/NeRF:目标人物固定、可采集训练视频、需要三维稳定和高 FPS 渲染。
  • 选 motion space:需要单图或少量参考输入、强调可控运动和低延迟 talking head。
  • 选扩散基模:需要整帧、全身、背景、长视频或更大视觉自由度。
  • 选局部换嘴:已有原视频,只需要替换语音和嘴型,同步稳定性比动作自由度更重要。
Summary

小结与下一篇衔接

NeRF/3DGS 数字人路线的核心不是“更像 3D”,而是把固定身份变成可训练、可复用、可实时驱动的三维渲染资产。NeRF 证明了音频驱动神经头像的三维一致性,RAD-NeRF 和 ER-NeRF 尝试把它推向更快、更区域感知的 talking portrait;3DGS 则把快速 rasterization 引入这个问题,使 TalkingGaussian、GaussianTalker、GSTalker 和 EGSTalker 能把实时性作为主要卖点。#Tang-et-al.-2022-RAD-NeRF #Li-et-al.-2023-ER-NeRF #Li-et-al.-2025-TalkingGaussian #Cho-et-al.-2024-GaussianTalker #Chen-et-al.-2024-GSTalker #Zhu-et-al.-2025-EGSTalker

下一篇进入扩散基模数字人。与 3DGS/NeRF 相比,扩散基模不再只服务于一个固定身份资产,而是借助大规模视频先验处理更高自由度的整帧生成、长时一致、身体动作和复杂场景。因此二者不是谁取代谁:3DGS/NeRF 更像专人资产路线,扩散基模更像通用视频生成路线。