DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering

作者: Sher Badshah, Hassan Sajjad

发布时间: 2025-03-12

来源: arxiv

研究方向: 自然语言处理(NLP)和大型语言模型(LLM)的评估

主要内容

本文研究了如何评估自由形式问答(QA)中LLM生成的响应。由于LLM生成的响应多样且开放,传统的评估方法难以捕捉语义等价或处理开放性响应的变异性。本文提出了动态仲裁框架(DAFE),该框架利用两个LLM作为法官,并在法官意见不一致时才介入第三个仲裁员。DAFE通过使用特定任务的参考答案和动态仲裁来提高判断准确性,在宏F1和Cohen's Kappa等评估指标上取得了显著改进。

主要贡献

1. 详细分析了传统指标在自由形式QA中的局限性

2. 评估了LLM法官,并对其优势和错误进行了分析

3. 进行了全面的人类评估,以进行基准测试

4. 引入了DAFE——一个可扩展的框架,通过选择性仲裁提高了可靠性,同时最大限度地减少了额外评估人员的需求

研究方法

1. 使用LLM作为法官来评估自由形式模型响应

2. 使用两个互补的LLM作为主要法官进行初始评估

3. 当主要法官意见不一致时,使用第三个仲裁员来解决问题

4. 利用特定任务的参考答案和动态仲裁来提高判断准确性

实验结果

实验结果表明,DAFE在宏F1和Cohen's Kappa等评估指标上取得了显著改进,与人类评估结果高度一致。DAFE在多个QA数据集上进行了测试,包括AmbigQA、FreshQA、HotpotQA、Natural Questions和TriviaQA。

未来工作

未来工作将探索在排除参考答案的情况下使用DAFE,以及将LLM代理与工具交互能力相结合以进行评估。