Pay More Attention to the Robustness of Prompt for Instruction Data Mining
作者: Qiang Wang, Dawei Feng, Xu Zhang, Ao Shen, Yang Xu, Bo Ding, Huaimin Wang
发布时间: 2025-04-02
来源: arxiv
研究方向: 大型语言模型(LLMs)的指令调整和数据挖掘
主要内容
本文研究了在线指令数据挖掘在LLMs指令调整中的作用,重点分析了提示的鲁棒性对数据挖掘过程的影响,提出了新的方法来提高数据挖掘的质量。
主要贡献
1. 提出了一个新的框架,用于从在线指令数据中挖掘钻石数据,用于指令调整。
2. 引入了对抗指令跟随难度(AIFD)分数,作为选择高评分指令数据的指标。
3. 引入了对抗指令输出嵌入一致性(AIOEC)方法,通过对抗提示来挖掘钻石数据。
4. 在两个基准数据集上进行了大量实验,以评估所提出方法的有效性。
研究方法
1. 对抗攻击,包括字符级、词级和句子级攻击,以生成对抗性指令数据。
2. Adversarial Instruction Following Difficulty(AIFD)分数的计算,用于评估对抗指令数据的难度。
3. Adversarial Instruction Output Embedding Consistency(AIOEC)方法的实现,用于通过测量对抗提示和用户输入提示之间的输出嵌入相似性来选择高质量的指令数据。
实验结果
实验结果表明,与IFD方法相比,AIFD方法在四个不同任务上平均准确率提高了1.2%,而仅使用了5%的钻石数据来微调LLaMA-7B模型。此外,通过AIFD方法挖掘的钻石数据微调后的LLaMA-7B模型性能比预训练的LLaMA-7B模型提高了4.43%。
未来工作
进一步研究提示鲁棒性在在线指令挖掘中的作用,探索更有效的数据挖掘方法,以及如何将这些方法应用于更广泛的场景。