知识蒸馏技术详解:大模型压缩与小模型提效的密钥

m
marvis

一、知识蒸馏的核心思想

知识蒸馏(Knowledge Distillation)由Hinton于2015年提出,核心思想是将大型"教师模型"的知识迁移到小型"学生模型"。关键洞察:教师模型的软标签(Soft Label)包含比硬标签更丰富的信息——不仅告诉学生"正确答案是什么",还告诉学生"其他答案的相对关系"。

二、主流蒸馏方法

方法蒸馏对象核心思想
软标签蒸馏输出logits用教师softmax(logits/T)作为学生目标,温度T控制软化程度
特征层蒸馏中间层特征让学生中间层输出对齐教师,通过MSE/L2损失
关系蒸馏样本间关系蒸馏样本间的相似度矩阵,保留数据的流形结构
自蒸馏自身深层用深层监督浅层,无需外部教师模型

三、NLP大模型蒸馏实践

在大模型时代,知识蒸馏被赋予新使命:将GPT-4/Claude级别的模型能力迁移到7B/13B的小模型上。代表性工作包括Orca(用GPT-4的思维链蒸馏小模型)和Alpaca(用GPT-3.5生成指令数据微调LLaMA)。关键技巧:数据质量比数据量更重要,精选的10K高质量样本往往优于100K噪声样本。

四、工业部署建议

边缘设备部署大模型的核心路径:剪枝 → 量化 → 蒸馏。蒸馏放在最后,弥补前两步的精度损失。对于在线服务,蒸馏可将推理延迟降低3-5倍,成本降低一个数量级。

相关阅读:大模型推理优化 | 万亿参数模型平民化