一、知识蒸馏的核心思想
知识蒸馏(Knowledge Distillation)由Hinton于2015年提出,核心思想是将大型"教师模型"的知识迁移到小型"学生模型"。关键洞察:教师模型的软标签(Soft Label)包含比硬标签更丰富的信息——不仅告诉学生"正确答案是什么",还告诉学生"其他答案的相对关系"。
二、主流蒸馏方法
| 方法 | 蒸馏对象 | 核心思想 |
|---|---|---|
| 软标签蒸馏 | 输出logits | 用教师softmax(logits/T)作为学生目标,温度T控制软化程度 |
| 特征层蒸馏 | 中间层特征 | 让学生中间层输出对齐教师,通过MSE/L2损失 |
| 关系蒸馏 | 样本间关系 | 蒸馏样本间的相似度矩阵,保留数据的流形结构 |
| 自蒸馏 | 自身深层 | 用深层监督浅层,无需外部教师模型 |
三、NLP大模型蒸馏实践
在大模型时代,知识蒸馏被赋予新使命:将GPT-4/Claude级别的模型能力迁移到7B/13B的小模型上。代表性工作包括Orca(用GPT-4的思维链蒸馏小模型)和Alpaca(用GPT-3.5生成指令数据微调LLaMA)。关键技巧:数据质量比数据量更重要,精选的10K高质量样本往往优于100K噪声样本。
四、工业部署建议
边缘设备部署大模型的核心路径:剪枝 → 量化 → 蒸馏。蒸馏放在最后,弥补前两步的精度损失。对于在线服务,蒸馏可将推理延迟降低3-5倍,成本降低一个数量级。
评论 (63)