DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs
作者: Jongwoo Ko, Tianyi Chen, Sungnyun Kim, Tianyu Ding, Luming Liang, Ilya Zharkov, Se-Young Yun
发布时间: 2025-03-11
来源: arxiv
研究方向: 大型语言模型(LLM)的压缩与知识蒸馏
主要内容
本文提出了一种名为DISTILLM-2的新方法,用于提高大型语言模型(LLM)的知识蒸馏效率。该方法通过对比方法,同时增加教师模型响应的可能性,并减少学生模型响应的可能性,从而在保持性能的同时,显著降低LLM的参数数量。
主要贡献
1. 提出了一种名为CALD的对比方法,用于LLM知识蒸馏,通过不同的损失函数来处理不同类型的训练样本。
2. 开发了DISTILLM-2,它结合了优化的数据集整理策略和基于课程的自适应损失机制。
3. DISTILLM-2在各种文本生成任务中实现了最先进的sLM性能,包括指令遵循、数学推理和代码生成。
4. DISTILLM-2支持多样化的应用,如偏好对齐和视觉语言扩展。
研究方法
1. 对比方法(CALD)
2. 优化的数据集整理策略
3. 基于课程的自适应损失机制
4. 偏斜KL(SKL)和偏斜RKL(SRKL)
5. 自适应离线策略
实验结果
DISTILLM-2在各种文本生成任务中实现了最先进的sLM性能,包括指令遵循、数学推理和代码生成。此外,它在偏好对齐和视觉语言模型扩展中也表现出色。
未来工作
DISTILLM-2有望在LLM和VLM的多个领域得到应用,包括构建高性能的参考模型、扩展到多模态LLM、恢复压缩LLM的性能以及提高LLM的推理速度。