WildIFEval: Instruction Following in the Wild
作者: Gili Lior, Asaf Yehudai, Ariel Gera, Liat Ein-Dor
发布时间: 2025-03-11
来源: arxiv
研究方向: LLM指令遵循与复杂多约束场景下的文本生成
主要内容
WILDIFEVAL是一项针对大型语言模型(LLM)在复杂多约束场景下指令遵循能力的大规模基准测试。该研究通过构建一个包含12K个真实用户指令的庞大数据集,评估了LLM在遵循复杂指令方面的表现,并分析了不同类型约束对模型性能的影响。
主要贡献
1. 发布WILDIFEVAL,首个公开的多约束指令基准数据集,用于评估LLM在复杂多约束场景下的指令遵循能力。
2. 对真实世界用户指令中约束的类型和特性进行了全面分析。
3. 比较了领先LLM在复杂约束生成任务中的性能,并分析了约束数量和类型对模型性能的影响。
研究方法
1. 构建了一个包含12K个真实用户指令的WILDIFEVAL数据集,其中每个任务都被分解为一系列约束。
2. 使用LLM对数据集中的指令进行分解,以提取约束。
3. 对数据集中的约束进行了分类,将其分为八个高级类别,以捕获其在现实场景中的分布和动态。
4. 对14个不同的LLM在WILDIFEVAL基准测试中的性能进行了评估,并进行了全面的分析。
5. 使用LLM作为裁判(LLMaaJ)对约束遵循能力进行评估。
实验结果
WILDIFEVAL对于所有评估的模型来说都是一项挑战,最佳模型的得分仅为0.65。研究发现,随着约束数量的增加,所有模型的性能都会下降。此外,还观察到特定类型的约束在模型性能中起着关键作用。
未来工作
未来研究可以探索如何利用约束生成来改进提示工程,例如通过将任务分解包含在提示中,或使用模型性能分析来识别更有效的约束表述方式。另一个重要的问题是,如何收集用于提高约束生成性能的监督数据。此外,可以研究如何根据约束类型动态地采用不同的评估方法,以及如何调用外部工具,例如搜索来检索信息。