Multi-Agent Security Tax: Trading Off Security and Collaboration Capabilities in Multi-Agent Systems

作者: Pierre Peigne-Lefebvre, Mikolaj Kniejski, Filip Sondej, Matthieu David, Jason Hoelscher-Obermaier, Christian Schroeder de Witt, Esben Kran

发布时间: 2025-02-28

来源: arxiv

研究方向: 人工智能与网络安全

主要内容

该论文研究了在多智能体系统中，如何平衡安全性和协作能力。通过模拟智能体在共享目标上的协作，分析了安全风险和安全权衡。重点研究了攻击者通过篡改一个智能体，利用它来操纵整个系统以实现不一致的结果的情景。

1. 展示了恶意提示在多智能体LLM模拟中的传播。

2. 评估了多种防御策略，包括名为“疫苗”的新的策略，这些策略将处理恶意输入的安全记忆插入到智能体的记忆流中。

3. 测量了这些防御策略对系统鲁棒性和智能体协作的影响。

4. 观察到了在不同防御策略之间存在的潜在权衡，即在评估防御策略时，如果没有考虑到对系统正常操作的影响，这种权衡可能会被忽视。

1. 模拟实验

2. 防御策略评估

3. 系统鲁棒性和智能体协作测量

实验结果表明，主动疫苗在提高系统鲁棒性的同时，不会降低智能体协作能力。而被动指令和被动疫苗在降低恶意指令传播和执行方面效果较差。此外，不同的LLM模型对防御策略的反应不同，需要针对不同的模型采取不同的安全措施。

未来的工作将考虑更复杂的攻击和防御策略，以及更广泛的场景，例如软件工程和自动化研究。此外，还将研究如何通过改进智能体的行为来提高系统的鲁棒性和协作能力。