ESC
输入关键词搜索文章
目录

数字人 Demo Gallery

用视频直接比较不同方案的实际效果
Lip-sync · 3D Avatar · 3DGS Talking Head · Motion · Expression
系列十一
为什么要单独看 Demo

数字人路线只看论文表格很容易误判。嘴唇同步单图 talking head3D 角色动作生成整帧视频生成,都可以被叫作“数字人”,但它们在画面里呈现出来的东西完全不同:有的只改变嘴部,有的生成头动和表情,有的驱动一个 3D 角色做全身动作,有的直接合成整段视频。

这篇作为系列十一,不做新的论文展开,只用实际视频建立直觉:先看一个嘴唇同步方案,再看 SentiAvatar 这种基于 3D 角色、语义动作和语音节奏生成的方案,最后看 EGSTalker 这种用 3D Gaussian Splatting 做实时音频驱动的专人建模方案。后面读具体论文或工程实现时,就能更快判断”它到底解决的是画面里的哪一层问题”。

看 Demo 的核心问题:不要只问“像不像真人”,还要拆开看:它有没有改动身份外观?有没有生成头动?有没有身体动作?动作是否跟语义有关?是否适合实时交互?
方案 A
嘴唇同步方案:局部重绘嘴部,让已有视频对上新音频

嘴唇同步路线的典型目标是:给定一段已有视频和一段目标音频,让视频里的人物嘴型和音频对齐。它通常不负责生成完整身体动作,也不重新设计角色行为。画面里最重要的变化集中在嘴部和下半脸,头动、身体、背景和镜头节奏主要来自原视频。

图 1:嘴唇同步方案演示。它的重点是让口型跟音频对齐,更接近“把已有视频重新配音”或“局部换嘴”。
观察维度这类方案通常表现为什么适合场景
身份外观基本沿用原视频身份和背景视频配音、口播改稿、短视频本地化
运动来源头动、身体和镜头多来自原视频原视频动作已经足够自然的场景
生成范围主要重绘嘴部或局部面部区域强调同步和稳定,而非重新表演
主要限制不会主动产生语义手势、视线和完整交互动作不适合作为完整面试官数字人的最终形态

表 1:嘴唇同步方案更像“已有视频的局部重绘”,不是完整行为生成。

方案 B
SentiAvatar:基于 3D 角色的动作、表情和语音节奏生成

SentiAvatar 的定位不同。它不是在已有真人视频上局部换嘴,而是围绕一个 3D 虚拟角色 SuSu,生成身体动作、手势和面部表情。它的重点是让数字人“会表达”:动作不仅要跟语音节奏对齐,还要跟当前语义和角色状态匹配。

图 2:SentiAvatar 项目页主 Demo。它代表基于 3D 角色和动作生成的数字人方案,关注身体动作、表情和语音节奏的统一。
观察维度SentiAvatar 更关注什么和嘴唇同步路线的差异
角色表示固定 3D 角色资产和骨骼/表情表示不是直接复用真人视频外观
运动生成生成身体、手势、面部表情和语音节奏不只是嘴部对齐
语义关系动作要表达对话内容和情绪状态比“音频到口型”多了行为层
产品位置更接近可交互角色或虚拟面试官适合持续对话,而不是只做视频配音

表 2:SentiAvatar 展示的是 3D 角色动作生成路线,目标是交互表达,而不是局部换嘴。

方案 C
EGSTalker:3D Gaussian Splatting 实时音频驱动的专人建模

EGSTalker 代表另一条路线:它不是修改已有视频,也不是驱动虚拟角色,而是用 3D Gaussian Splatting(3DGS)重建一个特定真人的三维头部,再用新音频驱动它的表情和嘴型。使用前需要先用 3–5 分钟的目标人物视频做专人训练(约 3.7 小时),之后就能用任意音频实时合成该人物的说话视频,推理速度达 68.51 FPS。

图 3:EGSTalker Demo。用 3DGS 重建特定人物头部后,音频驱动实时合成说话视频。画面保留了真人外观细节,同时生成与音频同步的唇型和表情。
观察维度EGSTalker 的特点与前两种方案的差异
身份外观高保真还原特定真人的面部细节(皮肤纹理、光影)比 lip-sync 更完整地生成面部,比 SentiAvatar 更贴近真人
训练方式需要 3–5 分钟目标人物视频做专人训练(~3.7h)lip-sync 无需训练,SentiAvatar 用固定角色资产
生成范围头部(表情 + 唇型),无身体动作比 lip-sync 生成范围大,比 SentiAvatar 小
实时性能68.51 FPS(3DGS 渲染)三种方案中渲染速度最快,天然适合实时
主要限制不支持任意人物(需先训练),无身体/手势不适合需要泛化到任意用户或完整身体表达的场景

表 3:EGSTalker 代表 3DGS 专人建模路线,用真实外观 + 实时渲染换取泛化性和身体动作。

对比结论
三种方案对应三种完全不同的数字人问题

嘴唇同步方案解决的是音频和已有画面的局部一致性:输入视频已经给出了身份、身体、背景和镜头,模型只需要让嘴部可信地跟上新音频。SentiAvatar 解决的是角色如何在对话里行动和表达:系统需要决定何时点头、何时摆手、表情如何变化、动作节奏如何贴合语音。EGSTalker 解决的是如何用真实外观做实时音频驱动:用 3DGS 保留真人的高保真细节,同时实现低延迟推理。

一句话区分:如果画面本来就有一个真人,只是嘴没对上音频,那是 lip-sync 问题;如果要让一个角色在实时对话中自然说话、做动作、表达情绪,那是 3D avatar / motion generation 问题;如果要高保真还原某个特定真人的外观并实时驱动,那是 3DGS 专人建模问题。

因此,选型时不能只说”我要数字人”。如果目标是批量视频配音,嘴唇同步路线更轻、更直接;如果目标是面试官、陪伴角色或互动助手,必须额外考虑角色资产、动作生成、表情控制、实时推流和多轮状态延续;如果目标是某个特定 IP 或 KOL 的高保真数字分身,且能接受先花时间训练,3DGS 路线在外观和速度上更有优势。

参考来源

  • SentiAvatar project page. SentiAvatar: Towards Expressive and Interactive Digital Humans.

    Project Page
  • Jin, C. et al. (2026). SentiAvatar: Towards Expressive and Interactive Digital Humans.

    arXiv:2604.02908
  • Zhu, Y. et al. (2025). EGSTalker: Efficient Gaussian Splatting Talking Head with Agent Attention.

    本系列精读:EGSTalker