Entropy-Based Adaptive Weighting for Self-Training

作者: Xiaoxuan Wang, Yihe Deng, Mingyu Derek Ma, Wei Wang

发布时间: 2025-04-03

来源: arxiv

研究方向: 大型语言模型(LLM)的数学推理能力与自训练方法

主要内容

本文提出了一种名为EAST的自训练方法,旨在通过自适应加权策略来优化模型训练,提高LLM在数学推理任务中的能力。EAST通过考虑模型的不确定性,为自训练过程中的数据分配不同的权重,从而引导模型关注更具信息量和挑战性的示例。

主要贡献

1. 提出了一种基于熵的自适应加权策略,利用模型的不确定性信息来调整训练数据的权重。

2. 设计了一种映射函数,可以控制不确定数据加权的程度。

3. 在GSM8K和MATH基准测试中,EAST相较于传统的自训练方法,在推理能力上取得了显著的提升。

研究方法

1. 自训练:利用LLM生成推理路径,并从中选择正确的路径进行模型微调。

2. 熵计算:通过计算模型样本分布的熵来衡量模型的不确定性。

3. 映射函数:将熵值映射到权重,以控制不确定数据的加权程度。

4. 损失函数:将权重整合到损失函数中,以优化模型参数。

实验结果

在GSM8K和MATH基准测试中,EAST相较于传统的自训练方法,在推理能力上取得了显著的提升。在MATH基准测试中,EAST相较于基础模型提升了约1%,在GSM8K基准测试中,EAST相较于基础模型提升了1-2%。

未来工作

进一步研究自适应加权策略在LLM训练中的应用,探索其在其他领域和任务中的潜力。