Prompt-to-Leaderboard

作者: Evan Frick, Connor Chen, Joseph Tennyson, Tianle Li, Wei-Lin Chiang, Anastasios N. Angelopoulos, Ion Stoica

发布时间: 2025-02-24

来源: arxiv

研究方向: 人工智能与机器学习

主要内容

该研究提出了一种名为Prompt-to-Leaderboard (P2L)的新方法，用于评估大型语言模型（LLM）在特定提示下的性能。P2L通过训练一个LLM，使其能够根据自然语言提示输出Bradley-Terry系数向量，从而预测人类偏好投票。这种方法能够生成与提示相关的排行榜，从而实现对LLM的细粒度评估。

主要贡献

1. 提出了一种新的方法P2L，用于评估LLM在特定提示下的性能。

2. 通过Bradley-Terry系数向量实现与提示相关的排行榜生成。

3. 实现了对LLM的细粒度评估，包括个人化评估、模型优势和劣势分析等。

4. 在Chatbot Arena中实现了最优路由，提高了模型性能。

5. 提出了Prompt-to-Regression (P2R)方法，扩展了P2L的应用范围。

研究方法

1. 训练一个LLM，使其能够根据自然语言提示输出Bradley-Terry系数向量。

2. 使用Bradley-Terry模型进行预测。

3. 通过最大似然估计拟合模型参数。

4. 实现最优路由策略。

5. 使用层次聚类进行模型优势和劣势分析。

实验结果

实验结果表明，P2L在Chatbot Arena中实现了最优路由，提高了模型性能。此外，P2L在预测人类偏好、路由策略、模型优势和劣势分析等方面均表现出良好的性能。

未来工作

未来可以进一步研究P2L在更多领域的应用，例如成本和延迟预测、其他评估任务等。此外，还可以探索P2L在多模态学习、元学习等领域的应用。