AgentSafe: Safeguarding Large Language Model-based Multi-agent Systems via Hierarchical Data Management
作者: Junyuan Mao, Fanci Meng, Yifan Duan, Miao Yu, Xiaojun Jia, Junfeng Fang, Yuxuan Liang, Kun Wang, Qingsong Wen
发布时间: 2025-03-07
来源: arxiv
研究方向: 大型语言模型(LLM)驱动的多智能体系统(MAS)的安全保障
主要内容
本文提出了一种名为AgentSafe的框架,旨在通过分层信息管理和内存保护来增强LLM驱动的MAS的安全性。AgentSafe通过分类信息的安全级别,限制敏感数据只对授权智能体访问。它包含两个组件:ThreatSieve和HierarCache。ThreatSieve通过验证信息权威性和防止冒充来确保通信安全;HierarCache是一个自适应内存管理系统,用于防御未经授权的访问和恶意中毒,是针对智能体内存的第一个系统化防御机制。
主要贡献
1. 提出了基于安全级别的第一个LLM驱动的MAS,实现了分层信息管理。
2. 引入了HierarCache的设计理念,为每个智能体提供不同安全级别信息的访问。
3. 通过实验验证了AgentSafe在多种攻击场景和数据集上的有效性和鲁棒性。
研究方法
1. 分层信息管理
2. 自适应内存管理
3. 信息权限控制
4. 消息合法性评估
5. 周期性检测和隔离机制
实验结果
实验结果表明,AgentSafe在多种攻击场景下显著提高了系统的健壮性,在对抗条件下实现了超过80%的防御成功率。此外,AgentSafe表现出可扩展性,随着智能体数量和信息复杂性的增加,仍能保持稳健的性能。
未来工作
未来工作将包括在真实动态环境中进行现场试验和实际部署,以验证AgentSafe在实际应用中的有效性。