Low-Confidence Gold: Refining Low-Confidence Samples for Efficient Instruction Tuning

作者: Hongyi Cal, Jie Li, Wenzhen Dong

发布时间: 2025-02-28

来源: arxiv

研究方向: 低置信度样本精炼与高效指令微调

主要内容

该研究针对大型语言模型（LLMs）在指令微调（IFT）过程中数据集质量和效率的问题，提出了一种名为Low-Confidence Gold（LCG）的新型过滤框架。该框架通过基于质心的聚类和置信度引导选择，识别有价值的指令对，并使用半监督方法对代表样本进行轻量级分类器训练，以筛选高质量的数据子集。

1. 提出了一种结合最近邻分类和基于置信度选择的创新数据过滤范式，用于指令微调。

2. 训练了一个小型分类器模型，能够对整个指令微调数据集进行选择。

3. 在多个开源LLMs上进行了实验和评估，证明了所筛选数据集在MT-Bench和HuggingFace OpenLLM排行榜基准测试中的卓越有效性。

1. K-means聚类

2. 半监督学习

3. 轻量级分类器训练

4. 置信度引导的数据选择

5. 基于质心的伪标签构建

LCG方法在多个基准和基础模型上，相较于现有的指令数据过滤方法，表现出一致的优越性能。在Mistral-7b和LLaMA3-8b等模型上，LCG方法在MT-bench基准测试中取得了显著提升，并且即使在只有1k个示例的情况下，该方法仍能保持强大的性能。

虽然LCG方法在数据质量和多样性方面取得了显著的成果，但仍存在一些挑战，例如选择带有注释的伪标签的数据需要时间和努力，以及数据集原始偏差和任务可能影响选择后的效率。未来的工作可以进一步优化半监督学习范式，减少初始数据选择的时间和努力，并减少数据集偏差的影响。