DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs

作者: Jongwoo Ko, Tianyi Chen, Sungnyun Kim, Tianyu Ding, Luming Liang, Ilya Zharkov, Se-Young Yun

发布时间: 2025-03-11

来源: arxiv

研究方向: 大型语言模型(LLM)的压缩与知识蒸馏

主要内容

本文提出了一种名为DISTILLM-2的新方法,用于提高大型语言模型(LLM)的知识蒸馏效率。该方法通过对比方法,同时增加教师模型响应的可能性,并减少学生模型响应的可能性,从而在保持性能的同时,显著降低LLM的参数数量。

主要贡献

1. 提出了一种名为CALD的对比方法,用于LLM知识蒸馏,通过不同的损失函数来处理不同类型的训练样本。

2. 开发了DISTILLM-2,它结合了优化的数据集整理策略和基于课程的自适应损失机制。

3. DISTILLM-2在各种文本生成任务中实现了最先进的sLM性能,包括指令遵循、数学推理和代码生成。

4. DISTILLM-2支持多样化的应用,如偏好对齐和视觉语言扩展。

研究方法

1. 对比方法(CALD)

2. 优化的数据集整理策略

3. 基于课程的自适应损失机制

4. 偏斜KL(SKL)和偏斜RKL(SRKL)

5. 自适应离线策略

实验结果

DISTILLM-2在各种文本生成任务中实现了最先进的sLM性能,包括指令遵循、数学推理和代码生成。此外,它在偏好对齐和视觉语言模型扩展中也表现出色。

未来工作

DISTILLM-2有望在LLM和VLM的多个领域得到应用,包括构建高性能的参考模型、扩展到多模态LLM、恢复压缩LLM的性能以及提高LLM的推理速度。