Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework

作者: Kaishuai Xu, Tiezheng Yu, Wenjun Hou, Yi Cheng, Liangyou Li, Xin Jiang, Lifeng Shang, Qun Liu, Wenjie Li

发布时间: 2025-02-27

来源: arxiv

研究方向: 自然语言处理,大型语言模型评估

主要内容

本文提出了一种名为ARJudge的评估框架,用于评估大型语言模型(LLM)的输出。该框架通过自适应地生成评估标准,并综合文本分析和代码驱动分析,以全面评估LLM的输出。

主要贡献

1. 提出了一种结合自适应标准生成和文本/代码驱动分析的评估框架ARJudge。

2. 开发了一个包含评估标准生成、文本分析和代码驱动分析的复合分析语料库。

3. 在多个基准测试中证明了ARJudge相对于现有评估器的优越性和鲁棒性。

研究方法

1. 构建复合分析语料库,包括评估标准生成、文本分析和代码驱动分析。

2. 训练一个基于Qwen2.5-7B-Instruct的Analyzer,用于生成多方面的评估。

3. 使用Refiner对Analyzer生成的分析结果进行综合和细化。

4. 在多个基准测试中进行实验,包括PandaLM Eval、Auto-J Eval、MTBench和LLMBar等。

实验结果

ARJudge在多个基准测试中均优于现有的评估器,特别是在LLMBar基准测试中,ARJudge的表现优于最佳基线模型Prometheus2-7B。此外,ARJudge在代码驱动分析方面表现出色,其执行成功率达到了100%。

未来工作

未来研究可以探索更有效的工具,如搜索引擎,以提高评估的诚实性和减少幻觉。此外,还可以进一步改进评估器的推理能力,并扩展评估范围以包括单条回复的评分。