数字人论文精读（二十九）：MEAD，大规模情绪音视频数据集如何推动 Talking Face 从动嘴到传情

2026/06/18 11:38:14

MEAD Talking Face 情绪生成数据集 ECCV 2020 SenseTime 音视频表情控制 Baseline FID

Part 1

为什么 Talking Face 需要情绪数据

从"嘴型同步"到"情感表达"：被忽视的核心挑战

Talking face generation（说话人脸生成）是指给定一张静态人脸图像和一段语音音频，合成出与音频内容同步的说话视频 #Wang-et-al.-2020。这个任务看似简单——让嘴巴动起来就行——但真正的难点远不止于此。自然的人类语音交流从来不只是"发声"这一个维度：语调的起伏、眼神的变化、面部肌肉的微表情，这些非语言特征（nonverbal characteristics）共同构成了说话者的情绪状态 #Wang-et-al.-2020 #Cowie-et-al.-2001。一个愤怒的人和一个悲伤的人即使说出完全相同的话，其面部表现也截然不同。

然而，在 MEAD 出现之前，主流的 talking face 生成方法几乎都忽略了这一关键维度。当时的 SOTA 方法虽然能够实现唇形与音频的完美同步（lip synchronization），但生成的视频中人脸往往"面无表情"（emotionless），甚至有时面部表情与音频内容之间存在明显的不匹配 #Wang-et-al.-2020 #Chen-et-al.-2019 #Zhou-et-al.-2019。想象一下：你用一段激昂的演讲音频驱动一个人脸模型，结果生成的视频里那个人一脸平静地念稿——这种违和感正是缺乏情绪建模的直接后果。

MEAD 填补了什么样的空白

问题的根源在于数据的缺失。论文明确指出："the absence of a large-scale, high-quality emotional audio-visual dataset is the main obstacle to achieve vivid talking-face generation"#Wang-et-al.-2020。没有足够规模和质量的情绪音视频数据，深度学习模型就无从学习"情绪如何影响面部运动"这一映射关系。正是在这样的背景下，MEAD（Multi-view Emotional Audio-visual Dataset，多视角情绪音视频数据集）应运而生。

MEAD 由 SenseTime Research、南洋理工大学（NTU）、卡内基梅隆大学（CMU）、中科院自动化所（CASIA）和中科院深圳先进技术研究院联合构建，发表于 ECCV 2020 #Wang-et-al.-2020。该数据集包含 60 名演员在 8 种情绪、3 级强度下的说话视频，由 7 个相机同时从不同角度录制，总计超过 28 万条视频片段 #Wang-et-al.-2020。它不仅是一个数据集，更附带了一个可操控情绪类别和强度的 talking face 生成 baseline，为后续研究提供了完整的起点。MEAD 的出现标志着 talking face 领域从"能不能动嘴"迈向了"能不能传情"的新阶段。

图 1：MEAD 数据集概览。60 名演员在 7 个视角下以 8 种情绪、3 级强度录制说话视频。#Wang-et-al.-2020

Part 2

现有数据集缺什么

六大经典数据集的全面对比

要理解 MEAD 的贡献，先来看它之前的数据集格局。论文中 Table 1 给出了一个清晰的横向对比 #Wang-et-al.-2020：

数据集	演员数	情绪数	强度等级	视角数	分辨率	片段数	平均时长/人
SAVEE #Jackson-and-Haq	4	7	1	1	1280×1024	480	7min 21s
RAVDESS #Livingstone-and-Russo-2018	24	8	2	1	1920×1080	7,356	3min 42s
GRID #Cooke-et-al.-2006	34	—	—	1	720×576	34,000	18min 54s
Lombard #Alghamdi-et-al.-2018	54	—	—	2	854×480	10,800	4min 1s
CREMA-D #Cao-et-al.-2014	91	6	3（仅 1/12 有效）	1	1280×720	7,442	N/A
MEAD #Wang-et-al.-2020	60	8	3（全覆盖）	7	1920×1080	281,400	38min 57s

情绪维度的缺失是最致命的短板

GRID 和 Lombard 两个数据集在设计之初就没有考虑情绪因素 #Cooke-et-al.-2006 #Alghamdi-et-al.-2018。SAVEE 虽然有 7 种情绪，但仅有 4 名演员、每种情绪只有 1 级强度，且总共仅 480 条片段 #Jackson-and-Haq，样本量远远不足以训练深度生成模型。RAVDESS 有 8 种情绪和 24 名演员，但强度只有 2 级（normal 和 strong），且每人平均仅 3 分 42 秒的数据 #Livingstone-and-Russo-2018。CREMA-D 虽然声称有 3 级强度，但实际上只有约 1/12 的数据拥有完整的强度标注 #Cao-et-al.-2014。

相比之下，MEAD 为 7 种非中性情绪中的每一种都提供了完整的 3 级强度标注（weak / medium / strong），且覆盖了全部 60 名演员 #Wang-et-al.-2020。从片段数量来看，MEAD 的 281,400 条是 RAVDESS 的约 38 倍、SAVEE 的约 586 倍 #Wang-et-al.-2020。

Controlled vs. In-the-Wild

数据集构建存在两种范式：in-the-wild（野外采集）和 controlled（受控采集）。In-the-wild 方法从互联网爬取视频再进行标注，容易扩展规模，但面临音视频质量不一致、情绪标注噪声大等问题 #Wang-et-al.-2020。对于情绪条件生成这种对标注精度极其敏感的任务，标注噪声会直接传导到生成模型中。MEAD 选择了成本更高但质量更有保障的 controlled approach：在严格控制的录制环境中，由专业演员指导团队全程监督 #Wang-et-al.-2020。

Part 3

MEAD 数据集设计：情绪体系、语料库与采集流程

8 种情绪 × 3 级强度

MEAD 的情绪定义遵循 RAVDESS #Livingstone-and-Russo-2018 的体系，包含 8 种情绪类别：neutral（中性）以及 7 种基本情绪——angry、disgust、contempt、fear、happy、sad、surprise #Wang-et-al.-2020。对于 7 种非中性情绪，MEAD 定义了 3 级强度 #Wang-et-al.-2020：

Level 1 — Weak：精致但可检测的面部运动，对应情绪的微妙表达；

Level 2 — Medium：情绪的正常状态，代表该情绪的典型表达；

Level 3 — Strong：最夸张的表情，要求相关面部区域有强烈的运动。

为什么选择 3 级？论文明确解释："More intensity levels would be hard to distinguish and cause confusion and inconsistency in data acquisition"#Wang-et-al.-2020。超过 3 级后人类标注者本身就难以可靠区分。Neutral 类别不设强度等级。

语料库设计：基于 TIMIT 的音素覆盖原则

MEAD 的语料库设计遵循 TIMIT 语音学多样化语料库的设计理念 #Garofolo-1993，目标是确保每种情绪下的语句能够覆盖英语中的全部音素。采用 ARPAbet 符号集 #Klautau-2001，覆盖了 15 个元音和 24 个辅音 #Wang-et-al.-2020。每种情绪的语句分为三类：

3 句通用句子：所有 8 种情绪共享，用于跨情绪对比；

7 句情绪相关句子：语义内容与目标情绪匹配；

20 句通用句子：语义中性，不偏向任何特定情绪。

7 种基本情绪各有 30 句，neutral 类别 40 句，总计 250 句 #Wang-et-al.-2020。作为对比，RAVDESS 仅使用 2 个句子 #Livingstone-and-Russo-2018，GRID 和 Lombard 使用固定句型 #Cooke-et-al.-2006。

数据采集流程

数据采集分为四个关键环节。演员筛选：招募 20–35 岁、流利英语、有表演经验的候选人，由专业演员录制示范视频供模仿评估 #Wang-et-al.-2020。最终 60 名演员来自 15+ 个国家，性别平衡。录制前准备：演员先用母语自发表达情绪释放紧张，再进行"情绪唤醒环节"以应对 Level 3 的极端表情需求 #Wang-et-al.-2020。录制顺序策略：大多数演员采用 weak → strong → medium 的典型顺序——体验过两个极端后更容易准确把握中等强度 #Wang-et-al.-2020。实时质量监督：指导团队从情绪和语音两个维度实时审核，通常切换新情绪时演员需要 2–3 次尝试才能完成一条合格片段 #Wang-et-al.-2020。

7 相机多视角布置

7 台相机同时从不同角度捕捉：5 台水平（-60°、-30°、0°、+30°、+60°）加 2 台垂直（±30°）#Wang-et-al.-2020。所有视频 1920×1080、30 fps、48 kHz 音频 #Wang-et-al.-2020。每位演员在每个视角下录制约 40 小时的片段，总计 281,400 条视频 #Wang-et-al.-2020。

数据后处理与统计分布

录制完成后，视频经过人脸检测、裁剪和对齐等预处理步骤：使用开源人脸对齐工具 #Bulat-and-Tzimiropoulos-2017 检测每帧的面部关键点，据此裁剪并对齐人脸区域。音频独立存储为 48 kHz WAV 文件，便于后续提取 MFCC 等特征 #Wang-et-al.-2020。

从数据分布来看，每种情绪在每位演员、每个视角下约有 400-500 条合格片段。情绪强度方面，7 种非中性情绪各有 3 级，neutral 类别不设强度等级。句子和单词的时长分布不受情绪变化的显著影响——但情绪强度确实会影响语速：一般而言，情绪强度越高，句子和单词的持续时间越短 #Wang-et-al.-2020。这一现象符合心理学观察：高唤醒度的情绪往往伴随更快、更有力的语言表达。

Part 4

Baseline 模型：情绪可控的 Talking Face 生成

解耦-融合范式

MEAD baseline 的核心设计理念是将唇形同步与情绪表达解耦为两个独立分支，再通过融合网络统一渲染 #Wang-et-al.-2020。说话人脸视频本质上包含两类独立的信息源：音频决定嘴怎么动（唇形），情绪条件决定脸怎么"演"（表情）。解耦之后，每个分支只需专注一件事。

训练阶段需要三个输入：音频特征 $a_{in}$ 、中性身份图像 $I_{in}$ 和目标情绪图像 $$I_t$$ ；推理时只需前两者加上情绪条件向量 $$y$$ ，无需目标图像。

Audio-to-Landmarks：从声音到唇形

从输入音频中提取 28 维 MFCC 特征，采样率 30 Hz 以与视频帧率对齐，使用 1 秒时间滑动窗口 #Wang-et-al.-2020。音频特征送入 LSTM 网络捕捉时序依赖，再经全连接层映射到嘴部关键点坐标。模型对关键点坐标进行 PCA 降维，最终输出嘴部关键点热力图 $$H_m$$ #Wang-et-al.-2020。

该模块的训练使用均方误差回归损失：

L_{reg} = \|A(a_{in}) - l_p\|^2

其中 $A(a_{in})$ 是预测的关键点坐标， $$l_p$$ 是 ground truth，两者均经 PCA 降维 #Wang-et-al.-2020。

Neutral-to-Emotion Transformer：从中性到任意情绪

这是实现情绪可控生成的核心模块。情绪条件向量的构造：将情绪类别的 one-hot 向量 $y_{em}$ （8 维）与情绪强度的 one-hot 向量 $y_{in}$ （3 维）拼接：

y = y_{em} \oplus y_{in}

将 $$y$$ 扩展到与输入中性图像 $I_{in}$ 相同的宽高，沿颜色通道拼接（spatial concatenation）作为 encoder-decoder 的输入 #Wang-et-al.-2020。网络采用对称架构，每侧由 6 层残差块和 4 个卷积层组成 #Wang-et-al.-2020。训练同时使用像素级 L1 重建损失和 VGG-16 感知损失：

L_{rec} = \lambda_{rec} \|I_t - T(I_{in}|y)\|_1, \quad L_{con1} = \|VGG_i(T(I_{in}|y)) - VGG_i(I_t)\|_1

采用 U-Net 结构作为生成器 $$G$$ ，输入为情绪人脸图像 $T(I_{in}|y)$ 和嘴部热力图 $$H_m$$ ，即 $G(T(I_{in}|y), H_m) \to I_g$ #Wang-et-al.-2020。U-Net 的 skip connections 保留空间细节，确保融合质量。

八项联合损失函数

L_{total} = L_{reg} + L_{rec} + L_{mou} + \lambda_{con} L_{con} + L_{adv} + L_{TV} + L_{cem} + L_{cin}

损失项	含义	作用对象	权重
$L_{reg}$	关键点回归损失（MSE）	Audio-to-Landmarks	1
$L_{rec}$	像素级重建损失（L1）	Transformer	1
$L_{mou}$	嘴部区域重建损失（L1）	Refinement Network	1
$L_{con}$	VGG-16 感知损失（ $L_{con1}+L_{con2}$ ）	Transformer + Refinement	1
$L_{adv}$	对抗损失（LSGAN）	Refinement Network	1
$L_{TV}$	Total Variation 平滑正则	Refinement Network	$10^{-5}$
$L_{cem}$	情绪分类损失（交叉熵）	辅助分类器	1
$L_{cin}$	强度分类损失（交叉熵）	辅助分类器	1

对抗损失采用 LSGAN 而非原始 GAN，提供更平滑的梯度 #Wang-et-al.-2020。 $L_{cem}$ 和 $L_{cin}$ 使用预训练分类器作为辅助监督，从语义级别约束生成图像的情绪类别和强度 #Wang-et-al.-2020。

训练配置

参数	值	披露状态
优化器	Adam	论文披露
学习率	0.001	论文披露
$\beta_1$ , $\beta_2$	0.5, 0.999	论文披露
Batch Size	1	论文披露
GPU	单卡 GTX 1080 Ti	论文披露

训练采用分阶段策略：Audio-to-Landmarks 约 4 小时 → Neutral-to-Emotion Transformer 约 24 小时 → Refinement Network 约 36 小时，总计约 64 小时 #Wang-et-al.-2020。论文明确指出分开训练比联合训练更稳定 #Wang-et-al.-2020。

Part 5

实验与评测：FID、用户研究与 Baseline 对比

FID 评分

MEAD baseline 在各情绪类别上的 FID 分数如下 #Wang-et-al.-2020：

情绪	angry	disgust	contempt	fear	happy	sad	surprise	neutral	均值
FID	36.14	36.99	43.02	35.06	32.81	32.64	25.97	28.06	33.84

Surprise 和 neutral 获得了最佳的生成质量，可能因为面部特征相对简单 #Wang-et-al.-2020。Contempt（轻蔑）的 FID 最高（43.02），生成难度最大——轻蔑涉及不对称的嘴角上扬等精细动作。三种 baseline 方法（CycleGAN / ATVGnet / ADAVR）由于缺乏情绪操控模块，FID 均超过 100 #Wang-et-al.-2020。

情绪生成准确率：接近真实数据

论文使用在 CK+ 上达到 SOTA 的 emotion-video 分类网络进行自动评估 #Wang-et-al.-2020。该网络对真实视频的分类准确率为 86.29%，对生成视频的测试准确率为 86.26% #Wang-et-al.-2020。两者差距仅 0.03%，说明生成视频的情绪表达在自动分类器眼中几乎与真实视频同等可识别。

用户研究：人类感知才是金标准

100 名志愿者（18-40 岁）参与了评测，随机选取 6 名演员（4 男 2 女）的数据 #Wang-et-al.-2020。

条件	angry	disgust	contempt	fear	happy	sad	surprise	neutral	均值
无声·Captured	0.91	0.86	0.82	0.87	0.90	0.93	0.86	0.65	0.85
无声·Generated	0.75	0.76	0.67	0.79	0.81	0.85	0.78	0.52	0.74
有声·Captured	0.95	0.91	0.84	0.93	0.96	0.96	0.88	0.68	0.89
有声·Generated	0.86	0.81	0.71	0.85	0.86	0.91	0.87	0.58	0.81

生成视频的平均准确率比真实视频低约 10%，但分布模式基本一致。即使在真实视频中，neutral 的识别率也只有 0.65-0.68，说明中性表情与弱情绪之间的边界本身就是模糊的 #Wang-et-al.-2020。

强度分类是最大短板：仅约 20% 的参与者认同生成方法的情绪强度排序 #Wang-et-al.-2020。对于真实视频，weak↔strong 混淆率仅 3%；对于生成视频，weak↔medium 混淆率高达 35% #Wang-et-al.-2020。

Baseline 对比

方法	情绪类别控制	情绪强度控制	主要问题
ATVGnet #Chen-et-al.-2019	无法生成可信情绪表情	无可观测的强度区分	仅擅长唇形同步，缺乏情绪建模
ADAVR #Zhou-et-al.-2019	无法生成可信情绪表情	无可观测的强度区分	解耦表征未涵盖情绪维度
CycleGAN #Zhu-et-al.-2017	能生成情绪但有明显伪影	仅有微弱强度差异	牙齿/唇/眼区域伪影；非配对训练破坏时间连续性
MEAD Baseline	多样化情绪表情生成	具备三级强度区分能力	强度区分度仍需改进

关键区别：上述三种 baseline 都不具备直接的情绪条件操控能力，实验中不得不为每种情绪单独训练一个模型。MEAD baseline 仅需一个模型即可通过条件向量 $$y$$ 自由切换 #Wang-et-al.-2020。

图 2：情绪类别操作对比。MEAD baseline 能生成多样化的情绪表情，而 ATVGnet 和 ADAVR 缺乏情绪建模，CycleGAN 在牙齿/唇/眼区域产生明显伪影（红色框标注）。#Wang-et-al.-2020

图 3：情绪强度操作对比（以 disgust 为例）。MEAD baseline 展示了 weak → medium → strong 三级强度的面部变化，而 baseline 方法要么无法区分强度，要么产生不自然的皮肤纹理和模糊伪影。#Wang-et-al.-2020

消融实验

补充材料中的消融实验验证了各损失项的作用 #Wang-et-al.-2020：移除 $L_{con1}$ 导致纹理细节丢失；移除 $L_{rec}$ 导致细节重建质量下降；移除 $L_{cem}/L_{cin}$ 导致情绪准确性显著下降。像素级（L1）、感知级（VGG）、对抗级（LSGAN）和语义级（分类器）四层约束缺一不可。

Part 6

下游影响：MEAD 在后续研究中的角色

作为情绪评测 Benchmark

MEAD 自 ECCV 2020 发表以来，截至 2026 年中已获得约 307 次引用 #Wang-et-al.-2020，成为情绪说话脸生成领域事实上的标准评测基准。StyleTalk（2023）在 MEAD 上取得 SSIM=0.840、LMD=3.250 #Wang-et-al.-2020；DreamTalk（2023）达到 SSIM=0.860、SyncNet=3.780 #Wang-et-al.-2020；SadTalker（2023）报告 SSIM=0.690、LMD=4.370 #Zhang-et-al.-2023；Audio2Head、EMMN、EAMM、PD-FGC 等方法也均在 MEAD 上进行了定量对比 #Wang-et-al.-2020。值得注意的是，DreamTalk 的 SSIM（0.860）显著高于 SadTalker（0.690），但两者的 SyncNet 分数差异较小，说明 SSIM 更多反映图像质量而 SyncNet 反映唇音同步能力——在 MEAD 上报告指标时需要同时关注两个维度。在 3D talking head 领域，ARTalk（2025）和 EmoTaG（2026）也使用 MEAD 作为评测基准 #Wang-et-al.-2020。

作为训练数据

LivePortrait（2024）将 MEAD 与 VoxCeleb、RAVDESS 等数据集一起用作训练数据源 #Guo-et-al.-2024。AD-NeRF（2021，348 次引用）使用 MEAD 训练 NeRF-based talking head #Guo-et-al.-2021。EmoTalk（2023，123 次引用）直接使用 MEAD 训练其情绪解耦模型 #Su-et-al.-2023。

与热门模型的关系

FlashHead（2026）、Hallo（2024）、EMO（2024）和 AniPortrait（2024）这四个近年最受关注的 talking face 模型，均未直接使用 MEAD 进行训练或评测 #Wang-et-al.-2020。EMO 在论文中引用 MEAD 作为情绪音视频数据集的重要先驱 #Wang-et-al.-2020，但未将其用作主要数据源。这反映出一个事实：当前主流 talking face 研究仍以中性/通用生成为主赛道，情绪生成仍是相对细分的方向。MEAD 的核心用户集中在显式关注情绪可控性的工作中。

开源情况

Part0（48 名演员）已通过百度网盘和 Google Drive 公开发布 #Wang-et-al.-2020。Part1（12 名演员）原计划于 2021 年 6 月发布 #Wang-et-al.-2020。代码和预训练模型托管在 GitHub，截至 2026 年获得 304 颗 star #Wang-et-al.-2020。

Part 7

讨论与启发

MEAD 的局限性

第一，无法从音频中解耦情绪。 论文明确指出："our method cannot disentangle emotion from input audio signal. The emotion in the lip is totally up to the input audio"#Wang-et-al.-2020。MEAD baseline 的情绪操控实际上只在上半脸（眉毛、眼睛等区域）真正生效，下半脸的情绪表达仍被音频"绑架"。要实现真正独立的情绪操控，需要从音频中显式地解耦内容和情绪两个因子。

第二，强度操控的可信度不足。 仅约 20% 的参与者认同生成视频中不同强度等级的排序 #Wang-et-al.-2020。论作者也承认 "How to measure discrimination in emotion intensities is a challenging problem"#Wang-et-al.-2020。

第三，3 级强度粒度可能不够精细。 3 级离散标签的信息瓶颈限制了生成的细腻程度。在实际的人类交流中，情绪强度是连续变化的。

对数据集建设的启发

Controlled vs. In-the-Wild 的权衡：MEAD 的受控录制确保了数据一致性，但"表演出来的情绪"和"自然流露的情绪"之间始终存在差距。未来的 hybrid approach 值得探索。

情绪标注的粒度：MEAD 作者提出引入 FACS（Facial Action Coding System）标注 #Wang-et-al.-2020，用面部动作单元（AU）的连续激活值描述表情，这将极大提升细粒度情绪生成的研究价值。

多视角数据的独特价值：7 视角同步录制是 MEAD 区别于所有同期数据集的独特优势，为 3D 重建和跨视角情绪识别提供了宝贵资源 #Wang-et-al.-2020。

对未来研究的启发

更细粒度的情绪标注：BEAT（ECCV 2022）和 EMOCA（2022）已在多粒度标注方面做出扩展 #Wang-et-al.-2020。

从音频中解耦情绪：这是 MEAD 留下的最重要的开放问题。EmoTalk（2023）和 EAMM（2022）已取得进展，但距离完全解耦仍有距离 #Wang-et-al.-2020。

跨语言情绪数据集：MEAD 仅覆盖英语 #Wang-et-al.-2020。构建跨语言情绪数据集，尤其是中文版本，具有重要的学术价值和应用前景。

一页速查

MEAD：60 演员 × 8 情绪 × 3 强度 × 7 视角 × 281,400 片段，ECCV 2020，最大规模受控情绪音视频数据集。
Baseline 架构：Audio-to-Landmarks（LSTM 唇形）+ Neutral-to-Emotion Transformer（情绪表情）+ Refinement Network（U-Net 融合）。
核心指标：FID 均值 33.84，情绪生成准确率 86.26%（接近真实 86.29%）。
最大短板：强度操控仅 ~20% 用户认同；无法从音频中解耦情绪。
下游影响：307 次引用，成为情绪 talking face 的标准评测基准；被 StyleTalk、DreamTalk、SadTalker、LivePortrait、AD-NeRF、EmoTalk 等使用。

系列位置数字人评测与算力系列目录数字人系列总览

参考来源

Wang, K. et al. (2020). MEAD: A Large-scale Audio-visual Dataset for Emotional Talking-face Generation. ECCV 2020
Cowie, R. et al. (2001). Emotion recognition in human-computer interaction. IEEE Signal Processing Magazine
Chen, L. et al. (2019). Hierarchical cross-modal talking face generation with dynamic pixel-wise loss (ATVGnet). CVPR 2019
Zhou, Y. et al. (2019). Talking face generation by adversarially disentangled audio-visual representation (ADAVR). AAAI 2019
Jackson, P. & Haq, S. (2014). Surrey Audio-Visual Expressed Emotion (SAVEE) Database. University of Surrey
Livingstone, S. T. & Russo, F. A. (2018). The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS). PLoS ONE
Cooke, M. et al. (2006). An audio-visual corpus for speech perception and automatic speech recognition (GRID). JASA
Alghamdi, N. et al. (2018). A corpus of audio-visual Lombard speech with frontal and profile views (Lombard). JASA
Cao, H. et al. (2014). CREMA-D: Crowd-sourced Emotional Multimodal Actors Dataset. IEEE TAC
Garofolo, J. S. (1993). TIMIT Acoustic Phonetic Continuous Speech Corpus. LDC
Klautau, A. (2001). ARPAbet and the TIMIT Alphabet. UFPA
Zhang, W. et al. (2023). SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation. CVPR 2023
Guo, J. et al. (2024). LivePortrait: Efficient and Controllable Portrait Animation Framework. arXiv:2407.03168
Guo, Y. et al. (2021). AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis. ICCV 2021
Su, Y. et al. (2023). EmoTalk: Speech-driven Emotional Disentanglement for 3D Facial Animation. ICCV 2023
Lucey, P. et al. (2010). The Extended Cohn-Kanade Dataset (CK+). CVPR Workshops
Zhu, J. Y. et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN). ICCV 2017
Bulat, A. & Tzimiropoulos, G. (2017). How Far Are We from Solving the 2D & 3D Face Alignment Problem? ICCV 2017

MEAD：从动嘴到传情