Activation Space Interventions Can Be Transferred Between Large Language Models
作者: Narmeen Oozeer, Dhruv Nathawani, Nirmalendu Prakash, Michael Lan, Abir Harrasse, Amirali Abdullah
发布时间: 2025-03-08
来源: arxiv
研究方向: 人工智能安全,大型语言模型
主要内容
该研究探讨了通过学习映射共享激活空间,在大型语言模型(LLMs)之间转移激活空间干预的可能性。研究主要集中在两个AI安全任务上:后门移除和拒绝有害提示,并引入了一个新的任务,即损坏能力,以测试模型区分有用技能和后门的能力。
主要贡献
1. 展示了通过学习映射共享激活空间,在LLMs之间转移激活空间干预的可能性。
2. 提出了一个新的任务,即损坏能力,用于测试模型区分有用技能和后门的能力。
3. 提出了一个基于自动编码器的“轻量级安全开关”,允许动态切换模型行为。
4. 证明了使用较小模型可以有效地对齐较大模型。
5. 证明了不同架构的LLMs之间可以有效地进行表示转移。
研究方法
1. 使用自动编码器来学习源模型和目标模型之间的映射。
2. 使用激活引导技术来识别可引导层。
3. 使用不同的度量标准来评估转移的有效性,包括ROUGE、BERTScore、BLEURT、LLM-Judge和KL散度。
4. 使用“损坏能力”任务来测试模型区分有用技能和后门的能力。
5. 使用基于权重的修补来比较激活修补和权重修补的效率。
实验结果
实验结果表明,使用自动编码器可以有效地将激活向量从一个模型转移到另一个模型,从而改变目标模型的行为。此外,实验还表明,使用较小模型可以有效地对齐较大模型,并且不同架构的LLMs之间可以有效地进行表示转移。
未来工作
未来的工作将包括扩展该方法到多模态设置,以实现跨模型类型的安全干预转移,以及转移其他行为,如任务向量和领域知识。