Prompt-to-Leaderboard
作者: Evan Frick, Connor Chen, Joseph Tennyson, Tianle Li, Wei-Lin Chiang, Anastasios N. Angelopoulos, Ion Stoica
发布时间: 2025-02-24
来源: arxiv
研究方向: 人工智能与机器学习
主要内容
该研究提出了一种名为Prompt-to-Leaderboard (P2L)的新方法,用于评估大型语言模型(LLM)在特定提示下的性能。P2L通过训练一个LLM,使其能够根据自然语言提示输出Bradley-Terry系数向量,从而预测人类偏好投票。这种方法能够生成与提示相关的排行榜,从而实现对LLM的细粒度评估。
主要贡献
1. 提出了一种新的方法P2L,用于评估LLM在特定提示下的性能。
2. 通过Bradley-Terry系数向量实现与提示相关的排行榜生成。
3. 实现了对LLM的细粒度评估,包括个人化评估、模型优势和劣势分析等。
4. 在Chatbot Arena中实现了最优路由,提高了模型性能。
5. 提出了Prompt-to-Regression (P2R)方法,扩展了P2L的应用范围。
研究方法
1. 训练一个LLM,使其能够根据自然语言提示输出Bradley-Terry系数向量。
2. 使用Bradley-Terry模型进行预测。
3. 通过最大似然估计拟合模型参数。
4. 实现最优路由策略。
5. 使用层次聚类进行模型优势和劣势分析。
实验结果
实验结果表明,P2L在Chatbot Arena中实现了最优路由,提高了模型性能。此外,P2L在预测人类偏好、路由策略、模型优势和劣势分析等方面均表现出良好的性能。
未来工作
未来可以进一步研究P2L在更多领域的应用,例如成本和延迟预测、其他评估任务等。此外,还可以探索P2L在多模态学习、元学习等领域的应用。