TwT: Thinking without Tokens by Habitual Reasoning Distillation with Multi-Teachers' Guidance

作者: Jingxian Xu, Mengyu Zhou, Weichang Liu, Hanbing Liu, Shi Han, Dongmei Zhang

发布时间: 2025-04-03

来源: arxiv

研究方向: 自然语言处理（NLP）和大型语言模型（LLM）推理优化

主要内容

提出了一种名为TwT（Thinking without Tokens）的方法，通过结合习惯推理蒸馏和多教师指导，在保持高性能的同时，降低LLM推理的计算成本。

1. 创新性地提出了一种名为TwT的框架，通过习惯推理蒸馏和多教师指导降低推理成本。

2. 提出了双标准拒绝采样（DCRS）策略，利用多教师LLM生成伪标签，使模型能够适应无监督场景。

3. 设计了习惯推理蒸馏（HaRD）方法，通过教师引导的压缩策略，将推理模式精炼化，并最终将显式推理集成到模型的本能行为中。

4. 通过实验验证了TwT在减少推理成本的同时，保持了优异的性能，与现有蒸馏方法相比，在生成更少的输出token的情况下，实现了高达13.6%的准确率提升。

1. 习惯推理蒸馏（HaRD）

2. 双标准拒绝采样（DCRS）

3. 教师引导的压缩策略

4. 多教师策略

TwT在三个基准数据集上的三个不同NLP任务中，与现有蒸馏方法相比，在减少token数量的同时，实现了更高的准确率。

继续探索进一步细分蒸馏阶段是否可以提升框架的性能，并研究如何利用更先进的训练策略来探索隐式自然语言推理。