数字人 Demo Gallery
数字人路线只看论文表格很容易误判。嘴唇同步、单图 talking head、3D 角色动作生成和整帧视频生成,都可以被叫作“数字人”,但它们在画面里呈现出来的东西完全不同:有的只改变嘴部,有的生成头动和表情,有的驱动一个 3D 角色做全身动作,有的直接合成整段视频。
这篇作为系列十一,不做新的论文展开,只用实际视频建立直觉:先看一个嘴唇同步方案,再看 SentiAvatar 这种基于 3D 角色、语义动作和语音节奏生成的方案,最后看 EGSTalker 这种用 3D Gaussian Splatting 做实时音频驱动的专人建模方案。后面读具体论文或工程实现时,就能更快判断”它到底解决的是画面里的哪一层问题”。
嘴唇同步路线的典型目标是:给定一段已有视频和一段目标音频,让视频里的人物嘴型和音频对齐。它通常不负责生成完整身体动作,也不重新设计角色行为。画面里最重要的变化集中在嘴部和下半脸,头动、身体、背景和镜头节奏主要来自原视频。
| 观察维度 | 这类方案通常表现为什么 | 适合场景 |
|---|---|---|
| 身份外观 | 基本沿用原视频身份和背景 | 视频配音、口播改稿、短视频本地化 |
| 运动来源 | 头动、身体和镜头多来自原视频 | 原视频动作已经足够自然的场景 |
| 生成范围 | 主要重绘嘴部或局部面部区域 | 强调同步和稳定,而非重新表演 |
| 主要限制 | 不会主动产生语义手势、视线和完整交互动作 | 不适合作为完整面试官数字人的最终形态 |
表 1:嘴唇同步方案更像“已有视频的局部重绘”,不是完整行为生成。
SentiAvatar 的定位不同。它不是在已有真人视频上局部换嘴,而是围绕一个 3D 虚拟角色 SuSu,生成身体动作、手势和面部表情。它的重点是让数字人“会表达”:动作不仅要跟语音节奏对齐,还要跟当前语义和角色状态匹配。
| 观察维度 | SentiAvatar 更关注什么 | 和嘴唇同步路线的差异 |
|---|---|---|
| 角色表示 | 固定 3D 角色资产和骨骼/表情表示 | 不是直接复用真人视频外观 |
| 运动生成 | 生成身体、手势、面部表情和语音节奏 | 不只是嘴部对齐 |
| 语义关系 | 动作要表达对话内容和情绪状态 | 比“音频到口型”多了行为层 |
| 产品位置 | 更接近可交互角色或虚拟面试官 | 适合持续对话,而不是只做视频配音 |
表 2:SentiAvatar 展示的是 3D 角色动作生成路线,目标是交互表达,而不是局部换嘴。
EGSTalker 代表另一条路线:它不是修改已有视频,也不是驱动虚拟角色,而是用 3D Gaussian Splatting(3DGS)重建一个特定真人的三维头部,再用新音频驱动它的表情和嘴型。使用前需要先用 3–5 分钟的目标人物视频做专人训练(约 3.7 小时),之后就能用任意音频实时合成该人物的说话视频,推理速度达 68.51 FPS。
| 观察维度 | EGSTalker 的特点 | 与前两种方案的差异 |
|---|---|---|
| 身份外观 | 高保真还原特定真人的面部细节(皮肤纹理、光影) | 比 lip-sync 更完整地生成面部,比 SentiAvatar 更贴近真人 |
| 训练方式 | 需要 3–5 分钟目标人物视频做专人训练(~3.7h) | lip-sync 无需训练,SentiAvatar 用固定角色资产 |
| 生成范围 | 头部(表情 + 唇型),无身体动作 | 比 lip-sync 生成范围大,比 SentiAvatar 小 |
| 实时性能 | 68.51 FPS(3DGS 渲染) | 三种方案中渲染速度最快,天然适合实时 |
| 主要限制 | 不支持任意人物(需先训练),无身体/手势 | 不适合需要泛化到任意用户或完整身体表达的场景 |
表 3:EGSTalker 代表 3DGS 专人建模路线,用真实外观 + 实时渲染换取泛化性和身体动作。
嘴唇同步方案解决的是音频和已有画面的局部一致性:输入视频已经给出了身份、身体、背景和镜头,模型只需要让嘴部可信地跟上新音频。SentiAvatar 解决的是角色如何在对话里行动和表达:系统需要决定何时点头、何时摆手、表情如何变化、动作节奏如何贴合语音。EGSTalker 解决的是如何用真实外观做实时音频驱动:用 3DGS 保留真人的高保真细节,同时实现低延迟推理。
因此,选型时不能只说”我要数字人”。如果目标是批量视频配音,嘴唇同步路线更轻、更直接;如果目标是面试官、陪伴角色或互动助手,必须额外考虑角色资产、动作生成、表情控制、实时推流和多轮状态延续;如果目标是某个特定 IP 或 KOL 的高保真数字分身,且能接受先花时间训练,3DGS 路线在外观和速度上更有优势。
参考来源
-
SentiAvatar project page. SentiAvatar: Towards Expressive and Interactive Digital Humans.
Project Page -
Jin, C. et al. (2026). SentiAvatar: Towards Expressive and Interactive Digital Humans.
arXiv:2604.02908 -
Zhu, Y. et al. (2025). EGSTalker: Efficient Gaussian Splatting Talking Head with Agent Attention.
本系列精读:EGSTalker