TwT: Thinking without Tokens by Habitual Reasoning Distillation with Multi-Teachers' Guidance

作者: Jingxian Xu, Mengyu Zhou, Weichang Liu, Hanbing Liu, Shi Han, Dongmei Zhang

发布时间: 2025-04-03

来源: arxiv

研究方向: 自然语言处理(NLP)和大型语言模型(LLM)推理优化

主要内容

提出了一种名为TwT(Thinking without Tokens)的方法,通过结合习惯推理蒸馏和多教师指导,在保持高性能的同时,降低LLM推理的计算成本。

主要贡献

1. 创新性地提出了一种名为TwT的框架,通过习惯推理蒸馏和多教师指导降低推理成本。

2. 提出了双标准拒绝采样(DCRS)策略,利用多教师LLM生成伪标签,使模型能够适应无监督场景。

3. 设计了习惯推理蒸馏(HaRD)方法,通过教师引导的压缩策略,将推理模式精炼化,并最终将显式推理集成到模型的本能行为中。

4. 通过实验验证了TwT在减少推理成本的同时,保持了优异的性能,与现有蒸馏方法相比,在生成更少的输出token的情况下,实现了高达13.6%的准确率提升。

研究方法

1. 习惯推理蒸馏(HaRD)

2. 双标准拒绝采样(DCRS)

3. 教师引导的压缩策略

4. 多教师策略

实验结果

TwT在三个基准数据集上的三个不同NLP任务中,与现有蒸馏方法相比,在减少token数量的同时,实现了更高的准确率。

未来工作

继续探索进一步细分蒸馏阶段是否可以提升框架的性能,并研究如何利用更先进的训练策略来探索隐式自然语言推理。