Low-Confidence Gold: Refining Low-Confidence Samples for Efficient Instruction Tuning

作者: Hongyi Cal, Jie Li, Wenzhen Dong

发布时间: 2025-02-28

来源: arxiv

研究方向: 低置信度样本精炼与高效指令微调

主要内容

该研究针对大型语言模型(LLMs)在指令微调(IFT)过程中数据集质量和效率的问题,提出了一种名为Low-Confidence Gold(LCG)的新型过滤框架。该框架通过基于质心的聚类和置信度引导选择,识别有价值的指令对,并使用半监督方法对代表样本进行轻量级分类器训练,以筛选高质量的数据子集。

主要贡献

1. 提出了一种结合最近邻分类和基于置信度选择的创新数据过滤范式,用于指令微调。

2. 训练了一个小型分类器模型,能够对整个指令微调数据集进行选择。

3. 在多个开源LLMs上进行了实验和评估,证明了所筛选数据集在MT-Bench和HuggingFace OpenLLM排行榜基准测试中的卓越有效性。

研究方法

1. K-means聚类

2. 半监督学习

3. 轻量级分类器训练

4. 置信度引导的数据选择

5. 基于质心的伪标签构建

实验结果

LCG方法在多个基准和基础模型上,相较于现有的指令数据过滤方法,表现出一致的优越性能。在Mistral-7b和LLaMA3-8b等模型上,LCG方法在MT-bench基准测试中取得了显著提升,并且即使在只有1k个示例的情况下,该方法仍能保持强大的性能。

未来工作

虽然LCG方法在数据质量和多样性方面取得了显著的成果,但仍存在一些挑战,例如选择带有注释的伪标签的数据需要时间和努力,以及数据集原始偏差和任务可能影响选择后的效率。未来的工作可以进一步优化半监督学习范式,减少初始数据选择的时间和努力,并减少数据集偏差的影响。