Low-Confidence Gold: Refining Low-Confidence Samples for Efficient Instruction Tuning

作者: Hongyi Cal, ie Li, Wenzhen Dong

发布时间: 2025-02-27

来源: arxiv

研究方向: 自然语言处理,大型语言模型,指令微调

主要内容

本文提出了一种名为Low-Confidence Gold (LCG)的新型数据过滤框架,用于提高指令微调的效率。该框架通过基于质心的聚类和置信度引导的选择来识别有价值的指令对,并使用半监督方法来构建高质量的数据子集。

主要贡献

1. 提出了一种结合最近邻分类和置信度选择的数据过滤范式。

2. 训练了一个小型分类器模型,使其能够选择整个指令微调数据集。

3. 在多个开源语言模型上进行了实验和评估,证明了所提出过滤数据集的卓越有效性。

研究方法

1. K-means聚类

2. 基于质心的伪标签生成

3. 早期停止的分类器训练

4. 置信度评分和选择

5. 半监督学习

实验结果

LCG在多个基准和基线模型上优于现有的指令数据过滤方法。在Mistral-7b和LLaMA3-8b上,LCG分别提高了MT-bench分数14.5%和11.5%。即使在只有1k个示例的情况下,该方法也保持了强大的性能。

未来工作

尽管LCG在提高指令微调的效率方面取得了显著成果,但仍存在一些挑战,如数据选择和任务偏置可能导致的低效性。未来的工作可以探索更有效的数据选择方法,并解决数据集的潜在偏置问题。