TwT: Thinking without Tokens by Habitual Reasoning Distillation with Multi-Teachers' Guidance
作者: Jingxian Xu, Mengyu Zhou, Weichang Liu, Hanbing Liu, Shi Han, Dongmei Zhang
发布时间: 2025-04-03
来源: arxiv
研究方向: 自然语言处理(NLP)和大型语言模型(LLM)推理优化
主要内容
提出了一种名为TwT(Thinking without Tokens)的方法,通过结合习惯推理蒸馏和多教师指导,在保持高性能的同时,降低LLM推理的计算成本。
主要贡献
1. 创新性地提出了一种名为TwT的框架,通过习惯推理蒸馏和多教师指导降低推理成本。
2. 提出了双标准拒绝采样(DCRS)策略,利用多教师LLM生成伪标签,使模型能够适应无监督场景。
3. 设计了习惯推理蒸馏(HaRD)方法,通过教师引导的压缩策略,将推理模式精炼化,并最终将显式推理集成到模型的本能行为中。
4. 通过实验验证了TwT在减少推理成本的同时,保持了优异的性能,与现有蒸馏方法相比,在生成更少的输出token的情况下,实现了高达13.6%的准确率提升。
研究方法
1. 习惯推理蒸馏(HaRD)
2. 双标准拒绝采样(DCRS)
3. 教师引导的压缩策略
4. 多教师策略
实验结果
TwT在三个基准数据集上的三个不同NLP任务中,与现有蒸馏方法相比,在减少token数量的同时,实现了更高的准确率。
未来工作
继续探索进一步细分蒸馏阶段是否可以提升框架的性能,并研究如何利用更先进的训练策略来探索隐式自然语言推理。