DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs

作者: Jongwoo Ko, Tianyi Chen, Sungnyun Kim, Tianyu Ding, Luming Liang, Ilya Zharkov, Se-Young Yun

发布时间: 2025-03-11

来源: arxiv

研究方向: 大型语言模型（LLM）的压缩与知识蒸馏

主要内容

本文提出了一种名为DISTILLM-2的新方法，用于提高大型语言模型（LLM）的知识蒸馏效率。该方法通过对比方法，同时增加教师模型响应的可能性，并减少学生模型响应的可能性，从而在保持性能的同时，显著降低LLM的参数数量。

1. 提出了一种名为CALD的对比方法，用于LLM知识蒸馏，通过不同的损失函数来处理不同类型的训练样本。

2. 开发了DISTILLM-2，它结合了优化的数据集整理策略和基于课程的自适应损失机制。

3. DISTILLM-2在各种文本生成任务中实现了最先进的sLM性能，包括指令遵循、数学推理和代码生成。

4. DISTILLM-2支持多样化的应用，如偏好对齐和视觉语言扩展。

1. 对比方法（CALD）

2. 优化的数据集整理策略

3. 基于课程的自适应损失机制

4. 偏斜KL（SKL）和偏斜RKL（SRKL）

5. 自适应离线策略

DISTILLM-2在各种文本生成任务中实现了最先进的sLM性能，包括指令遵循、数学推理和代码生成。此外，它在偏好对齐和视觉语言模型扩展中也表现出色。

DISTILLM-2有望在LLM和VLM的多个领域得到应用，包括构建高性能的参考模型、扩展到多模态LLM、恢复压缩LLM的性能以及提高LLM的推理速度。