Mapping AI Benchmark Data to Quantitative Risk Estimates Through Expert Elicitation

作者: Malcolm Murray, Henry Papadatos, Otter Quarks, Pierre-François Gimenez, Simeon Campos

发布时间: 2025-03-07

来源: arxiv

研究方向: 人工智能风险建模与量化风险评估

主要内容

本文研究如何将现有的人工智能基准测试数据用于生成风险估计,以评估大型语言模型(LLM)带来的潜在风险。研究者通过专家访谈,利用Cybench基准测试的结果,将LLM的性能转化为概率估计,以评估LLM在网络安全场景中的风险。

主要贡献

1. 提出了一种将AI基准测试数据转化为风险估计的方法。

2. 通过专家访谈,证明了该方法在量化AI风险评估中的可行性。

3. 揭示了当前LLM在网络安全场景中的潜在风险。

4. 为AI基准测试的开发者提供了将基准测试与实际风险关联的建议。

研究方法

1. 专家访谈

2. Cybench基准测试

3. IDEA协议(Investigate, Discuss, Estimate, Aggregate)

4. 贝叶斯插值方法

实验结果

研究发现,当前LLM在网络安全场景中可能提高攻击成功的概率,但专家对LLM能力的评估存在较大分歧。此外,研究还揭示了将基准测试与实际风险关联过程中存在的挑战,如专家对问题的不同理解等。

未来工作

未来研究应着重于以下方面:1)开发更详细的风险模型;2)创建针对每个风险模型步骤的针对性评估;3)改进专家访谈方法,以减少专家对问题的不同理解;4)探索更直接测量风险模型步骤的方法,以减少推断差距。