LAG: LLM agents for Leaderboard Auto Generation on Demanding
作者: Jian Wu, Jiayu Zhang, Dongyuan Li, Linyi Yang, Aoxiao Zhong, Renhe Jiang, Qingsong Wen, Yue Zhang
发布时间: 2025-02-27
来源: arxiv
研究方向: 人工智能领域中的 leaderboard 自动生成
主要内容
本文提出了一种名为 LAG 的框架,用于自动生成特定研究主题的 leaderboard。该框架利用大型语言模型(LLM)来收集论文、提取实验结果、生成和评估 leaderboard。通过这种方式,LAG 可以快速、高效地创建包含最新和高质量基准的 leaderboard。
主要贡献
1. 提出了一种自动生成 leaderboard 的新框架 LAG
2. 通过使用 LLM 解决了多文档摘要、leaderboard 生成和实验公平比较的挑战
3. 提供了一个可靠的评估方法来评估 leaderboard 的质量
4. 展示了 LAG 生成的高质量 leaderboard 的实验结果
研究方法
1. 论文收集和分割
2. 表格提取和分类
3. 表格拆解和集成
4. leaderboard 生成和评估
实验结果
实验结果表明,LAG 在不同长度的 leaderboard 上都取得了高分数,包括主题相关质量和内容质量。与手动创建的 leaderboard 相比,LAG 的效率更高,且在内容质量上接近人类表现。
未来工作
未来工作可以探索更高级的检索模型来进一步提高 leaderboard 的覆盖范围,并解决不同论文使用不同评估指标带来的挑战。