ESC
输入关键词搜索文章
目录

模型蒸馏:从 Hinton 软标签到 LLM 时代的新范式

引言:一个核心问题

当我们将一个 70B 参数的大模型"压缩"到一个 7B 的小模型时,被压缩的究竟是什么?是参数本身,还是藏在参数之间的某种"知识"?

这个问题看似简单,却触及了深度学习最深刻的谜团之一——模型究竟是如何学会泛化的?知识蒸馏(Knowledge Distillation, KD)正是基于这样的追问,在 2015 年由 Geoffrey Hinton 等人开创性地提出,并在接下来的十余年里,从一项模型压缩技巧演变为横跨计算机视觉、自然语言处理、多模态学习、联邦学习等多个领域的基础设施级技术。

本次调研尝试回答四个核心问题:

1. 知识蒸馏的技术谱系如何划分?从 logits 蒸馏到特征蒸馏、关系蒸馏,再到 LLM 时代的 CoT 蒸馏,方法论的演进逻辑是什么?

2. LLM 时代给蒸馏带来了哪些本质性变化?闭源大模型作为教师模型的兴起,如何催生了黑盒蒸馏、推理蒸馏等新范式?

3. 蒸馏与量化、剪枝等其他压缩技术如何权衡与组合?

4. 闭源模型蒸馏的合法性与实践边界在哪里?

这四个问题将贯穿全文,引导我们从经典方法走向前沿趋势。

知识蒸馏调研的内容结构:蒸馏来源、方案、算法、模态与应用
图:知识蒸馏调研的内容架构图(来源:IPL-Sharif 团队,TMLR'25)
第一章 · 基础概念
Teacher-Student、暗知识与三类知识

蒸馏的基本框架

知识蒸馏的核心思想可以追溯到一个直观的类比:老厨师把秘方传给徒弟。徒弟不需要完全复制师傅的每一个动作,而是学会师傅对火候、调味、食材搭配的"感觉"——这种难以言传的经验,就是隐含知识(tacit knowledge)。

在深度学习的语境下,这个类比对应着:给定一个性能强大但参数量巨大的教师模型(Teacher),如何训练一个参数量小得多的学生模型(Student),使其在保持较小体积的同时尽可能接近教师的表现?

Hinton 等人在 2015 年的经典论文中给出了回答:用软标签(soft labels)作为知识传递的媒介(见 ELF: Embedded Language Flows)。与传统的 one-hot 硬标签不同,软标签是教师模型输出的类别概率分布,其中蕴含了不同类别之间的相对相似性。例如,一个图像分类模型可能将某张图片预测为"猫"的概率是 0.7,"狗"的概率是 0.2——而"猫与狗更相似"这一隐含知识,就是 Hinton 所说的暗知识(Dark Knowledge)

为了让软标签的细粒度差异更容易被学生感知,蒸馏引入了温度参数(Temperature, T):在 softmax 函数中引入 T > 1,平滑概率分布,使得原本被 softmax 压扁的 logit 差异得以放大。T 越大,暗知识越丰富;T = 1 时退化为标准 softmax。

从优化目标来看,标准 KD 的损失函数是软标签损失与硬标签损失的加权组合:

$$L = \alpha \cdot T^2 \cdot KL\left(p_{\text{teacher}}^T \,||\, p_{\text{student}}^T\right) + (1 - \alpha) \cdot CE\left(y_{\text{hard}}, p_{\text{student}}^{T=1}\right)$$

其中温度平方因子 $T^2$ 用于平衡两个损失项的梯度量级,确保在训练初期软标签损失的梯度不会过于微弱。

蒸馏的基本框架包含三个核心要素:

  • 教师-学生架构:教师是预训练好的大模型,学生是结构更简单的轻量模型。二者可以是同构的(如 DistilBERT 蒸馏 BERT),也可以是异构的(如 CNN 蒸馏 Transformer)。
  • 暗知识:教师在"错误类别"上的概率分布所蕴含的结构性信息——真正重要的不是哪个类得分最高,而是类别之间的相对排序。
  • 温度参数:控制软标签平滑程度的超参数,是蒸馏的核心调节阀。
教师-学生蒸馏框架图
图:知识蒸馏的通用教师-学生框架示意(来源:IPL-Sharif 团队,TMLR'25)

三类知识:从 Logits 到关系结构

根据 IPL-Sharif 团队 2025 年的全面综述,蒸馏的知识可以从三个层次进行分类——这三种层次也构成了蒸馏技术谱系的基本骨架。

第一类:Logit 知识(Response-based Knowledge)

这是最原始、最直接的蒸馏形式,由 Hinton 等人于 2015 年提出。教师模型输出最后一层的类别概率分布,学生模型通过 KL 散度模仿这一分布。优点是实现简单、计算开销小;缺点是仅传递最终决策信息,丢失了中间推理过程——这就像徒弟只看到了师傅端出的成品菜,却没有学到师傅的烹饪思路。

第二类:特征知识(Feature-based Knowledge)

传递教师模型中间隐藏层的特征表示。FitNets(2014)首次提出了"hint-based distillation"框架,通过在学生网络的中间层引入适配层(regressor),使学生能够模仿教师对应层的特征。这一层知识的价值在于:传递了推理的中间步骤,而不仅仅是最终结论。

第三类:关系知识(Relation-based Knowledge)

不再逐点匹配教师与学生的特征值,而是强制学生网络在嵌入空间中保持与教师网络相同的关系结构——真正重要的不是特征的绝对值,而是特征空间中的相对几何结构。Relational Knowledge Distillation(RKD, CVPR 2019)定义了两种关系势函数:distance-wise(样本对之间的欧氏距离)和 angle-wise(三元组样本之间的夹角关系)。

这三类知识并非互斥,而是互补的。现代蒸馏方法通常同时利用多种知识信号,以获得更丰富的监督信息。

蒸馏知识的三种来源:Logits、特征与关系结构
图:蒸馏知识的三种来源——Logits(响应层输出)、特征(中间层表示)与关系结构(样本/通道/类间关系)(来源:IPL-Sharif 团队,TMLR'25)

蒸馏与量化、剪枝的关系

模型压缩技术家族有三大支柱:

  • 量化(Quantization):降低权重和激活的数值精度(FP32 → INT8/INT4),通过减少位宽降低存储和计算需求。
  • 剪枝(Pruning):移除不重要的权重、神经元或滤波器。结构化剪枝有利于硬件加速,非结构化剪枝压缩比更高但加速有限。
  • 蒸馏(Distillation):通过知识迁移训练小模型,本质上是一种"重新训练"过程,而非直接修改已有模型。

三者的关系并非互斥。在实际部署中,最常见的组合是蒸馏 + 量化:先用蒸馏将 70B 模型压缩到 7B,再将 7B 模型量化为 INT4,就可以在消费级 GPU 上运行。更激进的场景可以采用"蒸馏 → 剪枝 → 量化"的三阶段流水线,实现 50-100 倍的压缩,同时保持 90% 以上的原始性能。值得注意的是,连续空间扩散语言模型(如 ELF: Embedded Language Flows — 连续空间扩散语言模型,详见 Continuous Diffusion Language Models Survey)也探索了一条从大模型压缩到小模型的技术路线,但采用的不是传统蒸馏,而是 Flow Matching 在连续 embedding 空间的生成范式,与蒸馏技术形成互补。

第二章 · 经典方法
2015-2020:蒸馏三大支柱的奠定

Hinton KD(2015):开启一个时代

Geoffrey Hinton、Oriol Vinyals 和 Jeff Dean 在 2015 年发表的《Distilling the Knowledge in a Neural Network》,正式将"知识蒸馏"确立为一个独立的研究方向。

这篇论文的motivation极为务实:集成多个大型神经网络可以显著提升预测精度,但集成模型在部署阶段计算成本过高。Caruana 等人此前已证明可以将集成模型的知识压缩到单一模型中,而 Hinton 团队进一步发展了这一思路。

论文的核心贡献有三点:第一,系统阐述了软标签相对于硬标签的信息优势——软标签蕴含了类别间的相似性结构,这种暗知识对学生模型的泛化至关重要;第二,引入了温度参数 T 来控制软标签的平滑程度,并从梯度传播的角度给出了理论分析;第三,提出了"专家集成"架构——一个全模型加多个区分易混淆类别的专家模型,通过门控机制组合。

在 MNIST 手写数字识别上的实验尤为惊艳:一个包含两个 1200 单元隐藏层的单模型,通过蒸馏一个由多个大型网络组成的集成模型,接近了集成的性能。更重要的是,该方法被成功应用于 Google 的商用语音识别声学模型,证明了其在工业界的实用价值。

这篇论文的价值不仅在于技术本身,更在于它开启了一个全新的研究方向——将"知识"从参数中剥离出来,作为一种可迁移的抽象存在来研究。

FitNets(2014):中间层知识的价值

FitNets 由 Adriana Romero 等人发表于 ICLR 2015(实际工作完成于 2014 年),全称为"Hints for Thin Deep Nets"。其核心洞察是:仅模仿教师模型的最终输出,对学生来说是一种过于稀疏的监督信号——尤其在教师非常深、学生相对较浅的情况下。

FitNets 提出了"hint-based distillation"框架:选择教师网络的某个中间层作为"hint layer",在学生网络的对应位置设置"guided layer",通过一个适配层(regressor)将 guided layer 的输出映射到 hint layer 的维度空间。训练分为两个阶段:第一阶段单独训练 guided layer 与适配层,使学生对齐教师的中间表示;第二阶段在全网络上进行标准 KD 训练。

实验设计非常有说服力:在 CIFAR-10 上,一个 17 层的 thin deep network(参数量仅为教师模型的 1/10),不仅超过了同等宽度的浅层网络,甚至在某些配置下超过了教师模型本身。这种"青出于蓝"的现象后来被广泛观察到,其深层原因在于:蒸馏过程相当于为学生提供了一个更优的正则化目标,避免了从头训练时陷入局部最优。

FitNets 的遗产是深远的——它证明了中间层知识具有独立价值,直接催生了后续 Attention Transfer、CRD 等大量特征蒸馏研究。

Attention Transfer(2017):从特征到注意力

Zagoruyko 和 Komodakis 在 ICLR 2017 发表的《Paying More Attention to Attention》,将蒸馏对象从完整的特征图进一步抽象为"注意力图"。

出发点是一个直觉:人类视觉系统在处理图像时会自动聚焦到最相关的区域,深度 CNN 的激活图也隐含了类似的注意力模式。如果学生模型能够模仿教师的注意力分布,就能更高效地学习"看哪里"的结构性知识。

论文定义了两种注意力图:

  • 激活注意力(Activation-based Attention):基于特征图的绝对值聚合,计算公式为 $\sum_{i=1}^{C} |F_i|^p$,其中 $F_i$ 是第 $i$ 个通道的特征图,$p$ 通常取 2 或 1。
  • 梯度注意力(Gradient-based Attention):基于反向传播时特征图的梯度,捕捉对输出影响最大的区域。

蒸馏损失为教师与学生注意力图之间的 L2 距离。Attention Transfer 的优势在于计算高效,且注意力图是低维的,避免了特征维度对齐的困难。

RKD(2019):关系结构的力量

Relational Knowledge Distillation(RKD, CVPR 2019)由 Park 等人提出,是关系蒸馏的里程碑工作。RKD 的哲学立场是:真正重要的不是特征的绝对值,而是特征空间中的相对几何结构

具体而言,RKD 不再逐点匹配教师与学生的特征值,而是强制学生网络保持与教师网络相同的样本间关系结构。RKD 提出了两种关系势函数:

Distance-wise 关系:捕捉样本对之间的欧氏距离关系。

$$l_D = \sum_{i,j} \left| \frac{d_i - d_j}{|d_i - d_j|} - \frac{d_i' - d_j'}{|d_i' - d_j'|} \right|^2$$

其中 $d_i$$d_j$ 是教师网络中样本 $i$$j$ 的特征嵌入,$d_i'$$d_j'$ 是学生网络中的对应嵌入。

Angle-wise 关系:捕捉三元组样本之间的夹角关系,衡量的是"三点构成的几何关系"而非两两距离。

$$l_A = \sum_{i,j,k} \left| \angle(\mathbf{d}_i - \mathbf{d}_k, \mathbf{d}_j - \mathbf{d}_k) - \angle(\mathbf{d}_i' - \mathbf{d}_k', \mathbf{d}_j' - \mathbf{d}_k') \right|^2$$

RKD 在度量学习和人脸识别任务上取得了显著提升,证明了关系知识在需要保持嵌入空间结构的任务中具有独特价值。

Contrastive Representation Distillation(CRD, 2020)

Tian 等人于 2020 年提出的 CRD,将对比学习引入蒸馏,显著提升了跨架构蒸馏的效果。CRD 的核心思想是:学生模型不仅应该模仿教师的输出,还应该学习区分正负样本的能力

具体而言,CRD 构建了一个对比目标:教师和学生的表示空间都应满足"相似样本拉近、不同样本推远"的结构。具体实现时,教师表示由预训练模型直接获得(冻结),学生表示通过蒸馏训练获得,损失函数同时包含标签知识和对比知识两部分。

CRD 在跨架构蒸馏(如 ResNet → MobileNet)场景中表现尤为突出,证明了对比信号的引入可以有效缓解教师与学生架构差异带来的知识对齐困难。

第三章 · NLP 蒸馏
BERT 时代:从 DistilBERT 到 TinyBERT

DistilBERT:三重损失下的 BERT 压缩

2019 年 Sanh 等人提出的 DistilBERT,是 NLP 蒸馏领域最具影响力的工作之一。其核心思路简洁优雅:用 BERT 作为教师,训练一个 6 层 Transformer(约为 BERT 的一半深度)作为学生,通过三重损失联合优化:

1. 蒸馏损失:学生与教师最后一层隐藏状态的 KL 散度;

2. 遮罩语言模型(MLM)损失:标准 BERT 的 MLM 任务;

3. 余弦嵌入损失:对齐学生与教师隐藏状态的向量方向。

DistilBERT 将 BERT-base 压缩了 40%,在 GLUE 基准上保留了 97% 的性能,且推理速度提升 60%。这一结果具有里程碑意义:它证明了预训练语言模型可以在大幅压缩后保持核心能力,为后续的移动端 NLP 部署开辟了道路。

DistilBERT 的成功揭示了一个重要规律:蒸馏损失与原始任务损失的正交组合是有效的——学生同时获得了教师的"知识暗示"和任务的"硬标签信号"。

TinyBERT 与 MobileBERT:更极致的压缩

DistilBERT 之后,研究者开始追求更极致的压缩比。TinyBERT(Jiao et al., ICLR 2020)由华为诺亚方舟实验室提出,首次系统地将知识蒸馏应用于 BERT 的中间层表示,而不仅仅是最终输出。

TinyBERT 提出了两阶段蒸馏:

  • 通用蒸馏:在大规模无标签语料上,用所有 Transformer 层同时蒸馏(教师 12 层全部参与),使学生获得通用的语言表示能力。
  • 特定任务蒸馏:在下游任务数据上微调教师,再蒸馏到学生。

TinyBERT 将 BERT 压缩到 ~14M 参数(约 1/10 大小),在 GLUE 上保留 96% 的性能,同时推理速度提升了约 9 倍。

MobileBERT(Sun et al., ACL 2020)则采用了不同的策略:不是先训练大模型再压缩,而是从零开始设计一个倒置瓶颈(IB-BERT)架构,使其与标准 BERT 具有相同的层间信息流,但参数更少。MobileBERT 通过渐进式知识迁移,在保持 24M 参数的同时达到了与 BERT-base 相当的性能,且更适合移动端部署。

这三项工作共同奠定了 NLP 蒸馏的方法论基础:多层次、多任务的联合蒸馏是保持语言模型通用能力的有效策略。

第四章 · LLM 新范式
闭源教师、推理链与自蒸馏的崛起

范式转移:LLM 蒸馏的本质变化

LLM 时代的蒸馏与 2015-2020 年的经典蒸馏相比,发生了根本性的范式转移:

维度经典 KD (2015-2020)LLM KD (2023-2025)
教师模型白盒(可访问内部结构)黑盒为主(GPT-4、Claude)
知识来源Logits、特征图、注意力生成的文本、推理链、偏好排序
任务类型以分类为主以生成、推理为主
蒸馏信号确定性向量/矩阵序列化文本、概率分布
训练范式联合损失优化SFT、RLAIF、On-policy 学习
核心挑战特征维度对齐长序列建模、推理过程迁移
合法性通常无争议涉及服务条款、知识产权

这一变化的直接后果是:特征蒸馏几乎不可能实现——黑盒模型只暴露输出文本,内部表示不可访问。这迫使研究者重新思考:蒸馏的"知识"在新语境下应该是什么形态?

RLAD 框架图:选择性模仿与 Trust Region Ratio Distillation
图:RLAD 框架——选择性模仿机制与 Trust Region Ratio Distillation(TRRD)示意图(来源:Zhang et al., ICML 2026)

Distilling Step-by-Step(Google, 2023):用推理链替代答案

Google 团队 2023 年提出的 Distilling Step-by-Step,是 LLM 蒸馏领域的范式级工作。它的核心洞察异常深刻:过程知识(how)比结果知识(what)更具迁移效率——这与 FitNets 的"中间层知识"哲学一脉相承。

具体而言,Distilling Step-by-Step 的方法分为三步:

1. 提取 CoT 推理链:用大模型的 in-context learning 能力,让教师生成"问题 → 推理链 → 答案"的三元组数据。

2. 训练 rationale 生成器:在推理链数据上微调学生模型,使其学会生成分步推理。

3. 联合训练:学生同时学习预测答案和生成推理链,通过多任务学习框架实现。

实验结果令人震惊:借助 CoT 推理链,一个 770M 参数的学生模型在特定任务上可以超越 540B 参数教师模型的 few-shot 性能。这一发现彻底改变了我们对"模型需要多大才能完成复杂推理"的理解。

Distilling Step-by-Step 的意义不仅是技术上的,更揭示了一个教育学原理:推理过程的显式传递,比最终答案的直接模仿,更能培养学生(模型)的泛化能力

MiniLLM 与序列级蒸馏在不同教师-学生配对下的 GPT-4 反馈得分对比
图:MiniLLM 与序列级蒸馏(SeqKD)在不同教师-学生配对下的平均 GPT-4 反馈得分对比(来源:Gu et al., ICLR 2024)

MiniLLM(Microsoft, 2024):Reverse KL 的胜利

MiniLLM 由 Microsoft 团队于 2024 年提出,专门解决生成式 LLM 蒸馏中的核心难题:前向 KL 散度在生成分布上存在"模态高估"(mode-seeking)问题。

什么是模态高估? 假设真实分布有三个高峰(三种合理的回答方式),而教师模型的概率质量集中在一个高峰上。前向 KL 散度 $KL(p_{\text{teacher}} || p_{\text{student}})$ 在优化时会强制学生覆盖所有教师覆盖的区域——包括那些教师给低概率的区域。这导致学生模型产生模糊、冗长的回答,因为它需要同时覆盖多个模态。

MiniLLM 采用了反向 KL 散度(Reverse KL)

$$KL\left(p_{\text{student}} \,||\, p_{\text{teacher}}\right) = \sum_x p_{\text{student}}(x) \log \frac{p_{\text{student}}(x)}{p_{\text{teacher}}(x)}$$

反向 KL 追求的是精确命中教师的高概率区域,忽略低概率区域。这对应了生成任务的需求:用户期望的是"高质量的典型回答"而非"面面俱到的平均回答"。

前向 KL 与反向 KL 在高斯混合分布上的拟合效果对比
图:前向 KL(左)vs 反向 KL(右)在单高斯拟合高斯混合分布时的效果对比——前向 KL 被迫覆盖所有模态导致模糊,反向 KL 精确命中主模态(来源:Gu et al., ICLR 2024)
序列级蒸馏与 MiniLLM 的训练机制对比
图:序列级蒸馏(左)强制学生记忆教师生成的所有样本;MiniLLM(右)通过反向 KL 让学生在自身能力范围内生成最优回答(来源:Gu et al., ICLR 2024)

实验证明,MiniLLM 在 7B → 1.3B 的蒸馏中,学生模型在指令遵循任务上达到教师 70B 模型 85-90% 的性能,同时生成的文本更简洁、更符合人类偏好。

LLM-NEO(2024):参数高效蒸馏的统一框架

LLM-NEO(arXiv:2411.06839)提出了一个优雅的统一框架:将 LoRA(Low-Rank Adaptation)与知识蒸馏目标联合优化,实现参数高效蒸馏。

传统蒸馏要求全参数训练学生模型,这在 LLM 场景下成本极高。LLM-NEO 的解决方案是:学生模型使用 LoRA 适配器进行训练,仅更新约 0.1-1% 的参数,同时蒸馏目标与 LoRA 的 KL 散度损失联合反向传播。

LLM-NEO 的实验表明,在资源受限场景下,LoRA + KD 的组合可以接近全参数蒸馏 90-95% 的效果,同时训练成本降低一个数量级。这一方法对于需要在消费级 GPU 上微调开源大模型(如 Llama、Qwen)的开发者具有直接的实用价值。

第五章 · 推理与自蒸馏
从 RL 后训练到自我进化的新路径

RLAD:强化学习后训练模型的蒸馏

arXiv:2602.22495 提出的 RLAD(Reinforcement-aware Knowledge Distillation),是蒸馏经过强化学习后训练的 LLM(如 DeepSeek-R1、OpenAI o1/o3)推理能力的最新尝试。

RLAD 的核心观察是:经过 RL 后训练的大模型,其输出分布发生了本质变化——不再只是最大化人类偏好,而是学会了探索、修正和自我验证的推理策略。简单地用前向 KL 蒸馏这些模型,会导致学生模仿教师的"错误修正行为"本身,而非正确的推理路径。

RLAD 提出了 Trust Region Ratio Distillation(TRRD)方法:引入一个 trust region 机制,仅蒸馏教师在"可靠推理区间"内的分布。具体来说,用策略比率 $\frac{\pi_{\text{student}}}{\pi_{\text{teacher}}}$ 作为加权因子,自动过滤教师在低置信度区域的输出,避免学生被教师的"推理噪声"误导。

实验表明,RLAD 可以将 DeepSeek-R1 的数学推理能力蒸馏到 7B-14B 的学生模型中,学生在 MATH、GSM8K 等基准上达到教师的 80-90% 准确率。

RLAD 与 KDRL 的训练稳定性对比
图:RLAD 与 KDRL 在长上下文推理任务上的训练稳定性对比——RLAD 收敛更平稳、KDRL 出现明显振荡(来源:Zhang et al., ICML 2026)

自蒸馏:模型不需要外部教师

自蒸馏(Self-Distillation)是蒸馏领域最令人兴奋的方向之一——模型通过自我博弈和知识复用,持续提升自身能力,无需外部教师。

OPSD(Offensive Privilege Self-Distillation) 是这一方向的代表作。其核心思想是:让模型的两个不同版本(一个稍强、一个稍弱)进行对抗性训练,较弱的版本从较强的版本中学习,同时通过对抗性 prompt 挖掘能力的边界。

SDPO(Self-Distillation with Preference Optimization) 则将自蒸馏与直接偏好优化(DPO)结合:模型在生成 response 的同时生成对比的 rejected 响应,通过内部比较学习区分高质量与低质量输出。

SDFT(Self-Distillation Fine-Tuning) 的方法更加直接:用模型的 EMA(指数移动平均)版本作为教师,当前版本作为学生,实现"模型教自己"的渐进式提升。

自蒸馏的意义是战略性的:它绕过了对闭源大模型的依赖,为构建自主可控的 AI 能力提供了新路径。

Weak-to-Strong:弱监督也能训练强模型

OpenAI 2023 年发表的"弱到强泛化"研究,是蒸馏思想在 AI 对齐领域的创新应用。

研究的核心问题是:GPT-4 级别的强模型如果只能获得弱监督者(如 GPT-2)的信号,能否仍然泛化到强监督无法直接给出的复杂偏好?

实验表明,即使监督信号来自远弱于目标能力的"弱教师",强模型仍然可以恢复大部分自身能力——但需要额外的正则化和泛化技术来弥补弱教师的信号缺失。

这一发现对蒸馏的直接启示是:即使教师能力远低于学生,蒸馏过程仍然有价值——学生可以利用教师提供的"结构化信号"(即使不完美)来组织自身的知识,而不是完全依赖盲目的自监督学习。

第六章 · 多模态与联邦蒸馏
跨越模态边界与隐私保护

MoVE-KD:多视觉编码器的融合蒸馏

MoVE-KD(CVPR 2025)是视觉-语言模型(VLM)蒸馏的最新进展,由 Cao 等人提出。其核心洞察是:不同预训练视觉基础模型(如 CLIP、DINO、SAM)各有独特的视觉理解能力,而现有方法只蒸馏单一编码器,无法充分利用多源知识。

MoVE-KD 首次从知识蒸馏的角度提出了"多视觉编码器混合"框架:将多个教师编码器的独特能力融合到一个单一的高效学生编码器中。具体机制是:基于 CLIP 的 [CLS] 注意力权重,动态地为不同教师编码器和视觉 token 分配蒸馏权重,实现自适应的多源知识融合。

MoVE-KD 的实验结果显示,学生编码器在 ImageNet 分类、视觉语言理解等多项任务上,显著优于仅蒸馏单一教师的方法。这标志着 VLM 蒸馏从"单一教师模仿"向"多教师融合"的范式转变。

VLM 蒸馏的独特挑战在于跨模态对齐的保持:蒸馏过程中,视觉编码器和语言解码器之间的对齐关系必须被精确保留,否则学生模型可能出现"看见但说不清"或"能说但看错"的模态错位。

联邦蒸馏:隐私保护下的知识共享

联邦学习(Federated Learning, FL)允许多个客户端在不共享原始数据的情况下协同训练模型。然而,传统的联邦平均(FedAvg)存在三个固有缺陷:模型同构性要求、高通信成本、非独立同分布(Non-IID)数据下的性能下降

联邦蒸馏(Federated Distillation) 通过传输知识(如 logits、特征、合成数据)而非模型参数,有效缓解了这些问题。代表性方法包括:

  • FedKD:客户端本地训练后进行 logits 层面的知识交换;
  • FedGen:使用生成模型在服务器端合成数据,分发给客户端进行蒸馏;
  • DS-FL:只传输最具信息量的 logits 子集,降低通信开销;
  • FedDF:在服务器端维护公共数据集,用客户端上传的 logits 进行集成蒸馏。

联邦蒸馏的独特价值在于隐私保护:不传输原始数据甚至不传输完整模型参数,天然具有更好的隐私保证,使其在医疗、金融等敏感数据场景中具有巨大的应用潜力。

第七章 · 方法全景
从经典到前沿:一条脉络、两大维度

主流蒸馏方法总表

方法年份知识类型适用场景核心优势主要局限
Hinton KD2015Logits分类任务简单通用仅传递最终输出
FitNets2014中间特征深度网络压缩利用中间层信息需人工选择 hint layer
Attention Transfer2017注意力图CNN 视觉任务计算高效仅适用于空间注意力
RKD2019关系结构度量学习、分类捕获样本关系计算复杂度较高
CRD2020对比特征跨架构蒸馏鲁棒性强需构造正负样本
DistilBERT2019Logits + 隐藏状态NLP 预训练模型通用语言表示保留仅减半深度
Distilling Step-by-Step2023CoT 推理链推理任务数据效率极高依赖教师推理质量
MiniLLM2024输出分布生成式 LLMReverse KL 适合生成仅白盒适用
LLM-NEO2024Logits资源受限蒸馏参数高效LoRA 容量有限
RLAD2025推理轨迹RL 后训练模型选择性模仿训练复杂度高
MoVE-KD2025多编码器特征VLM 压缩多源知识融合需多个教师
FedDF2020+Logits联邦学习隐私保护通信开销

从上表可以清晰地看到一条演进脉络:知识的形式在不断扩展——从早期的输出概率,到中间特征、注意力图、关系结构,再到 LLM 时代的推理链、偏好排序和策略分布。

LLM 蒸馏算法对比

算法范式教师访问训练稳定性数据效率生成质量
SFT监督学习黑盒
Forward KL分布对齐白盒低(模糊)
Reverse KL (MiniLLM)分布对齐白盒
RLAIF强化学习黑盒(奖励)
On-policy Distill在线学习白盒
Self-Distillation自我博弈无需

值得注意的是,没有任何单一算法在所有维度上都是最优的——Reverse KL 适合生成任务但训练稳定性较低;Self-Distillation 成本最低但天花板受限于模型自身能力。实际选择时需要根据任务需求在多个维度间权衡。

第八章 · 核心问题
为什么有效?LLM 与经典有何不同?

模型蒸馏为什么有效?

蒸馏的有效性可以从三个层面理解:

1. 标签软化与正则化效应

软标签本质上是一种标签平滑(label smoothing)技术,防止学生模型对训练数据过度自信,从而提升泛化能力。从贝叶斯视角看,教师模型的输出是对后验分布的近似,学生通过模仿这个分布,实际上在学习一个更鲁棒的决策边界。

2. 暗知识的迁移

软标签中包含了类别间的相似性信息(如"猫"与"老虎"比"猫"与"汽车"更相似)。这种结构化信息在硬标签中完全丢失。学生模型通过学习这些相对关系,获得了超越单纯分类任务的语义理解能力。

3. 优化景观的引导

教师模型的输出为学生提供了一个"预筛选"的优化方向。训练初期,学生可以沿着教师已经验证过的路径前进,避免在庞大的参数空间中进行盲目的随机探索。这类似于人类学习中的"师徒制":初学者通过模仿专家的行为,快速掌握基本技能,再在此基础上发展个人风格。

对于 LLM 而言,蒸馏还有一个额外的有效性来源:大模型生成的数据质量通常高于人类标注数据(尤其在需要复杂推理的任务中),因此用教师生成的数据训练学生,实际上是在用更高质量的监督信号替代原始信号。

蒸馏 vs 微调 vs 剪枝 vs 量化

维度知识蒸馏微调剪枝量化
核心思想用大模型知识训练小模型在特定数据上调整预训练模型移除不重要参数降低数值精度
是否需要教师
训练成本中等(需训练学生)低-中等低-中等极低(PTQ)/中等(QAT)
压缩比2-10x无压缩2-100x2-16x
推理加速是(模型更小)是(结构化剪枝)是(位宽降低)
精度损失小-中等取决于数据量小-大(取决于稀疏度)小-中等
硬件友好性高(标准模型)中等(需稀疏计算支持)高(INT8 广泛支持)
可组合性与剪枝、量化均可组合独立使用可与量化组合可与剪枝组合

实际工程建议:如果追求极致压缩,采用"蒸馏 → 量化"流水线(70B → 7B → INT4);如果推理速度是关键瓶颈,优先考虑蒸馏 + 量化 + 推理框架优化(如 llama.cpp)的组合。

闭源模型蒸馏:合法性、实践与未来

闭源模型蒸馏的合法性是一个复杂且快速演变的议题。

法律层面:直接使用闭源 API 的输出训练竞争模型处于灰色地带。OpenAI 的服务条款明确禁止"使用输出开发竞争模型",但如何界定"竞争"存在很大模糊性。实践中,如果蒸馏得到的模型用于完全不同的应用领域,通常不视为竞争;但如果用于替代原模型的核心业务,则可能构成违约。

实践层面:尽管存在法律风险,闭源蒸馏在实践中极为普遍。Alpaca、Vicuna、WizardLM 等主流开源模型都通过蒸馏 GPT-3.5/GPT-4 的数据训练而成。产业界的常见做法包括:

  • 使用多个不同来源的 API 输出混合训练,降低单一来源依赖;
  • 对 API 输出进行显著改写和增强,增加数据的"原创性";
  • 在蒸馏数据基础上加入大量公开数据和自生成数据,稀释闭源数据比例。

技术缓解策略:差分隐私蒸馏注入噪声使数据来源无法追溯;模型遗忘技术移除模型中来自特定来源的知识;合成替代逐步用开源模型替代闭源蒸馏数据。

展望未来,随着开源模型(Llama 3、Qwen 2.5、DeepSeek)的能力越来越接近闭源模型,对闭源蒸馏的依赖将逐渐降低——这可能从根本上解决闭源蒸馏的合法性问题。

第九章 · 当前水平与未来
标杆数据与六大趋势

当前技术水平(截至 2025 年中)

截至 2025 年中,模型蒸馏领域已达到以下技术水平:

分类任务:在 ImageNet 上,通过先进的特征蒸馏和关系蒸馏方法,可以将 ResNet-152 压缩到 ResNet-18 级别,Top-1 精度损失控制在 2% 以内。蒸馏与剪枝、量化的联合应用,可以将模型压缩 50-100 倍,同时保持 90% 以上的原始性能。

NLP 理解任务:DistilBERT 系列已将 BERT-base 压缩到 40-60%,GLUE 性能保留 95-97%。TinyBERT、MobileBERT 等进一步将 BERT 压缩到 10M 参数级别,适用于移动设备。

LLM 生成任务:MiniLLM 证明 7B 学生模型可以在指令遵循任务上达到教师 70B 模型 85-90% 的性能。Distilling Step-by-Step 表明,借助 CoT 推理链,770M 模型可以在特定任务上超越 540B 模型的 few-shot 性能。

推理能力迁移:RLAD 等最新工作证明,经过 RL 后训练的大模型(如 DeepSeek-R1)的推理能力可以通过蒸馏有效迁移到 7B-14B 的小模型中,小模型在数学竞赛题(如 GSM8K、MATH)上的准确率可以达到教师的 80-90%

端侧部署:结合蒸馏、量化和优化推理框架(llama.cpp、vLLM),7B 级别的蒸馏模型已经可以在智能手机(如 iPhone 15 Pro)上以可接受的速度运行,标志着"大模型上端"时代的来临。

未来六大趋势

趋势一:推理蒸馏的爆发

随着 DeepSeek-R1、OpenAI o3 等推理模型的普及,将长 CoT 推理能力蒸馏到紧凑模型将成为 2025-2026 年的核心研究方向。未来的蒸馏方法需要更好地处理推理过程中的探索-利用权衡、错误修正机制和自我验证能力

趋势二:自蒸馏成为主流

OPSD、SDPO、SDFT 等自蒸馏方法表明,模型可以通过自我博弈持续提升能力,无需外部教师。这种"自我进化"的范式可能彻底改变模型后训练的生态,降低对闭源大模型的依赖。

趋势三:多模态统一蒸馏

未来的蒸馏方法将同时处理文本、图像、音频、视频的联合蒸馏。统一的多模态蒸馏框架需要解决跨模态对齐、模态间信息冗余和缺失模态处理等挑战。连续空间扩散语言模型(如 [@连续扩散语言模型路线综述])在视觉编码器研究中提出的"信息压缩是可独立诊断的变量"这一洞察,对多模态蒸馏中跨模态语义对齐具有重要参考价值——视觉 tokenizer 的 latent dimension 选择,本质上与蒸馏中"知识压缩到多少算合适"是同一问题。

趋势四:蒸馏与硬件协同设计

蒸馏不再是纯粹算法层面的工作,而是与硬件架构(NPU、TPU、边缘芯片)深度协同。未来的蒸馏方法可能直接针对特定硬件约束(内存带宽、计算单元数量)进行优化。

趋势五:可信蒸馏

随着蒸馏在医疗、金融、自动驾驶等高风险领域的应用,蒸馏过程的可解释性、鲁棒性和公平性将受到更多关注。"可信蒸馏"(Trustworthy Distillation)将成为一个新的子领域。

趋势六:数据集与模型联合蒸馏

"数据-模型"联合蒸馏框架将同时优化合成数据集和学生模型,实现比单独优化任一维度更高的效率。这一方向与神经架构搜索(NAS)、自动化机器学习(AutoML)的交叉将产生新的研究机会。

结论
从压缩技巧到 AI 基础设施

调研的核心发现

知识蒸馏从 2015 年 Hinton 的开创性论文发展至今,已经从一个简单的模型压缩技巧演变为一个横跨多个领域、包含丰富方法论的研究方向。经典 KD 时代奠定了 Logits 蒸馏、特征蒸馏和关系蒸馏 三大支柱;LLM 时代则催生了 CoT 蒸馏、黑盒蒸馏、自蒸馏和推理蒸馏 等新范式。

本次调研的核心发现可以总结为以下四点:

1. 知识的形式在不断扩展。 从早期的输出概率,到中间特征、注意力图、关系结构,再到 LLM 时代的推理链、偏好排序和策略分布,"知识"的定义变得越来越丰富和抽象。

2. 蒸馏的目标在持续演变。 从单纯的模型压缩,到能力迁移、数据合成、隐私保护和自我进化,蒸馏已经成为大模型生态系统中不可或缺的基础设施。

3. 理论与实践之间存在张力。 蒸馏在实践中极其有效,但理论理解仍显不足。为什么学生模型能够超越从头训练的同尺寸模型?软标签的"暗知识"究竟在优化景观中起到了怎样的作用?这些问题需要更深入的数学分析。

4. 跨领域融合是创新的源泉。 对比学习、强化学习、联邦学习、参数高效微调等领域的进展持续为蒸馏注入新的思想和技术。保持跨领域的开放视野是把握蒸馏前沿的关键。

实践建议

  • 如果教师是白盒且任务为生成式,优先考虑 MiniLLM 的 reverse KL 框架;
  • 如果教师是黑盒且需要推理能力,采用 Distilling Step-by-Step 或 RLAD;
  • 如果资源极度受限,考虑 LLM-NEO 等参数高效方法;
  • 如果在隐私敏感场景,联邦蒸馏是首选。

知识蒸馏的未来,将由那些既能深入理解其理论基础、又能灵活跨越领域边界的研究者和工程师来书写。

参考来源