Low-Confidence Gold: Refining Low-Confidence Samples for Efficient Instruction Tuning
作者: Hongyi Cal, Jie Li, Wenzhen Dong
发布时间: 2025-02-28
来源: arxiv
研究方向: 低置信度样本精炼与高效指令微调
主要内容
该研究针对大型语言模型(LLMs)在指令微调(IFT)过程中数据集质量和效率的问题,提出了一种名为Low-Confidence Gold(LCG)的新型过滤框架。该框架通过基于质心的聚类和置信度引导选择,识别有价值的指令对,并使用半监督方法对代表样本进行轻量级分类器训练,以筛选高质量的数据子集。
主要贡献
1. 提出了一种结合最近邻分类和基于置信度选择的创新数据过滤范式,用于指令微调。
2. 训练了一个小型分类器模型,能够对整个指令微调数据集进行选择。
3. 在多个开源LLMs上进行了实验和评估,证明了所筛选数据集在MT-Bench和HuggingFace OpenLLM排行榜基准测试中的卓越有效性。
研究方法
1. K-means聚类
2. 半监督学习
3. 轻量级分类器训练
4. 置信度引导的数据选择
5. 基于质心的伪标签构建
实验结果
LCG方法在多个基准和基础模型上,相较于现有的指令数据过滤方法,表现出一致的优越性能。在Mistral-7b和LLaMA3-8b等模型上,LCG方法在MT-bench基准测试中取得了显著提升,并且即使在只有1k个示例的情况下,该方法仍能保持强大的性能。
未来工作
虽然LCG方法在数据质量和多样性方面取得了显著的成果,但仍存在一些挑战,例如选择带有注释的伪标签的数据需要时间和努力,以及数据集原始偏差和任务可能影响选择后的效率。未来的工作可以进一步优化半监督学习范式,减少初始数据选择的时间和努力,并减少数据集偏差的影响。