数字人系列（十一）：不同方案的实际效果演示

2026/06/10 09:55:00·2026/06/18 14:10:00

数字人 Demo Lip Sync SentiAvatar 3D Avatar EGSTalker 3DGS

系列十一

为什么要单独看 Demo

数字人路线只看论文表格很容易误判。嘴唇同步、单图 talking head、3D 角色动作生成和整帧视频生成，都可以被叫作“数字人”，但它们在画面里呈现出来的东西完全不同：有的只改变嘴部，有的生成头动和表情，有的驱动一个 3D 角色做全身动作，有的直接合成整段视频。

这篇作为系列十一，不做新的论文展开，只用实际视频建立直觉：先看一个嘴唇同步方案，再看 SentiAvatar 这种基于 3D 角色、语义动作和语音节奏生成的方案，最后看 EGSTalker 这种用 3D Gaussian Splatting 做实时音频驱动的专人建模方案。后面读具体论文或工程实现时，就能更快判断”它到底解决的是画面里的哪一层问题”。

看 Demo 的核心问题：不要只问“像不像真人”，还要拆开看：它有没有改动身份外观？有没有生成头动？有没有身体动作？动作是否跟语义有关？是否适合实时交互？

方案 A

嘴唇同步方案：局部重绘嘴部，让已有视频对上新音频

嘴唇同步路线的典型目标是：给定一段已有视频和一段目标音频，让视频里的人物嘴型和音频对齐。它通常不负责生成完整身体动作，也不重新设计角色行为。画面里最重要的变化集中在嘴部和下半脸，头动、身体、背景和镜头节奏主要来自原视频。

图 1：嘴唇同步方案演示。它的重点是让口型跟音频对齐，更接近“把已有视频重新配音”或“局部换嘴”。

观察维度	这类方案通常表现为什么	适合场景
身份外观	基本沿用原视频身份和背景	视频配音、口播改稿、短视频本地化
运动来源	头动、身体和镜头多来自原视频	原视频动作已经足够自然的场景
生成范围	主要重绘嘴部或局部面部区域	强调同步和稳定，而非重新表演
主要限制	不会主动产生语义手势、视线和完整交互动作	不适合作为完整面试官数字人的最终形态

表 1：嘴唇同步方案更像“已有视频的局部重绘”，不是完整行为生成。

方案 B

SentiAvatar：基于 3D 角色的动作、表情和语音节奏生成

SentiAvatar 的定位不同。它不是在已有真人视频上局部换嘴，而是围绕一个 3D 虚拟角色 SuSu，生成身体动作、手势和面部表情。它的重点是让数字人“会表达”：动作不仅要跟语音节奏对齐，还要跟当前语义和角色状态匹配。

图 2：SentiAvatar 项目页主 Demo。它代表基于 3D 角色和动作生成的数字人方案，关注身体动作、表情和语音节奏的统一。

观察维度	SentiAvatar 更关注什么	和嘴唇同步路线的差异
角色表示	固定 3D 角色资产和骨骼/表情表示	不是直接复用真人视频外观
运动生成	生成身体、手势、面部表情和语音节奏	不只是嘴部对齐
语义关系	动作要表达对话内容和情绪状态	比“音频到口型”多了行为层
产品位置	更接近可交互角色或虚拟面试官	适合持续对话，而不是只做视频配音

表 2：SentiAvatar 展示的是 3D 角色动作生成路线，目标是交互表达，而不是局部换嘴。

方案 C

EGSTalker：3D Gaussian Splatting 实时音频驱动的专人建模

EGSTalker 代表另一条路线：它不是修改已有视频，也不是驱动虚拟角色，而是用 3D Gaussian Splatting（3DGS）重建一个特定真人的三维头部，再用新音频驱动它的表情和嘴型。使用前需要先用 3–5 分钟的目标人物视频做专人训练（约 3.7 小时），之后就能用任意音频实时合成该人物的说话视频，推理速度达 68.51 FPS。

图 3：EGSTalker Demo。用 3DGS 重建特定人物头部后，音频驱动实时合成说话视频。画面保留了真人外观细节，同时生成与音频同步的唇型和表情。

观察维度	EGSTalker 的特点	与前两种方案的差异
身份外观	高保真还原特定真人的面部细节（皮肤纹理、光影）	比 lip-sync 更完整地生成面部，比 SentiAvatar 更贴近真人
训练方式	需要 3–5 分钟目标人物视频做专人训练（~3.7h）	lip-sync 无需训练，SentiAvatar 用固定角色资产
生成范围	头部（表情 + 唇型），无身体动作	比 lip-sync 生成范围大，比 SentiAvatar 小
实时性能	68.51 FPS（3DGS 渲染）	三种方案中渲染速度最快，天然适合实时
主要限制	不支持任意人物（需先训练），无身体/手势	不适合需要泛化到任意用户或完整身体表达的场景

表 3：EGSTalker 代表 3DGS 专人建模路线，用真实外观 + 实时渲染换取泛化性和身体动作。

对比结论

三种方案对应三种完全不同的数字人问题

嘴唇同步方案解决的是音频和已有画面的局部一致性：输入视频已经给出了身份、身体、背景和镜头，模型只需要让嘴部可信地跟上新音频。SentiAvatar 解决的是角色如何在对话里行动和表达：系统需要决定何时点头、何时摆手、表情如何变化、动作节奏如何贴合语音。EGSTalker 解决的是如何用真实外观做实时音频驱动：用 3DGS 保留真人的高保真细节，同时实现低延迟推理。

一句话区分：如果画面本来就有一个真人，只是嘴没对上音频，那是 lip-sync 问题；如果要让一个角色在实时对话中自然说话、做动作、表达情绪，那是 3D avatar / motion generation 问题；如果要高保真还原某个特定真人的外观并实时驱动，那是 3DGS 专人建模问题。

因此，选型时不能只说”我要数字人”。如果目标是批量视频配音，嘴唇同步路线更轻、更直接；如果目标是面试官、陪伴角色或互动助手，必须额外考虑角色资产、动作生成、表情控制、实时推流和多轮状态延续；如果目标是某个特定 IP 或 KOL 的高保真数字分身，且能接受先花时间训练，3DGS 路线在外观和速度上更有优势。

上一篇实时语音 AI 与数字人产业图谱系列总览数字人系列总览相关论文 SentiAvatar 论文精读相关论文 EGSTalker 论文精读

参考来源

SentiAvatar project page. SentiAvatar: Towards Expressive and Interactive Digital Humans.
Project Page
Jin, C. et al. (2026). SentiAvatar: Towards Expressive and Interactive Digital Humans.
arXiv:2604.02908
Zhu, Y. et al. (2025). EGSTalker: Efficient Gaussian Splatting Talking Head with Agent Attention.

本系列精读：EGSTalker

数字人 Demo Gallery

参考来源