How to Mitigate Overfitting in Weak-to-strong Generalization?
作者: Junhao Shi, Qinyuan Cheng, Zhaoye Fei, Yining Zheng, Qipeng Guo, Xipeng Qiu
发布时间: 2025-03-07
来源: arxiv
研究方向: 人工智能与机器学习
主要内容
本文研究了在弱到强泛化过程中如何减轻过拟合,以提升强模型的泛化能力。弱到强泛化旨在通过弱监督来激发强模型的能力,并确保强模型的行为与弱监督者的意图一致,避免出现欺骗等不安全行为。
主要贡献
1. 指出了减轻弱到强泛化过拟合的两个关键因素:监督质量和问题质量。
2. 提出了一个两阶段弱到强训练框架,有效解决了挑战性推理任务上的过拟合问题。
3. 在MATH和GSM8k两个数学推理基准上进行了广泛实验,结果表明该框架有效地减轻了过拟合,显著优于传统的弱到强泛化方法,在某些模型和数据集上甚至达到了100%的PGR(性能差距恢复)。
4. 通过实验证明了框架在减轻过拟合方面的有效性,第一阶段显著优于传统的弱到强泛化方法,第二阶段进一步增强了PGR,具有显著的鲁棒性。
研究方法
1. 使用基于不确定性的标准来过滤由弱模型生成的样本,基于模型的一致性进行过滤。
2. 第一阶段:通过模型的一致性来过滤生成的样本,然后使用这些样本来训练强模型。
3. 第二阶段:使用第一阶段中细化的强模型为丢弃的问题提供监督,并通过基于不确定性的过滤来确保监督的正确性。
4. 使用链式思维提示来生成答案,并选择一致性最高的答案作为模型的最终响应。
5. 使用基于不确定性的过滤来保留具有高置信度的样本,以生成高质量的训练数据集。
实验结果
在MATH和GSM8k两个数学推理基准上进行的实验表明,该框架在多个模型系列(包括Llama 3和Deepseek)上均表现出显著的效果。在GSM8k数据集上,Llama 3 70B模型在弱到强泛化(PGR)方面的表现从7.19%提高到120.50%,而在MATH数据集上,PGR从36.17%提高到121.28%。在Deepseek模型系列上,GSM8k数据集上的PGR从51.39%提高到90.04%,而MATH数据集上的PGR从65.85%提高到126.83%。
未来工作
进一步迭代细化被丢弃的问题,以进一步提高问题质量,从而增强整体框架的性能。此外,还需要解决自动选择最佳阈值的问题,以及两阶段微调方法的计算开销问题。