Investigating Generalization of One-shot LLM Steering Vectors

作者: Jacob Dunefsky, Arman Cohan

发布时间: 2025-02-28

来源: arxiv

研究方向: 大型语言模型(LLM)的引导向量优化与应用

主要内容

本文研究了通过在单个训练示例上直接优化引导向量来引导LLM的行为,并评估了这些引导向量的泛化能力。

主要贡献

1. 提出了一种新的引导向量优化方法,能够在单个训练示例上有效地引导LLM的行为。

2. 开发了一种新的评估框架,用于量化评估引导向量的有效性。

3. 在多个实验中证明了引导向量的有效性,包括抑制有害行为、拒绝有害请求以及从生成虚假信息中恢复等。

4. 发现引导向量在不同示例上具有低余弦相似度,表明相似的行为可以通过不同的方向来引导。

研究方法

1. 直接优化引导向量,包括促进引导、抑制引导和重入引导。

2. 使用基于基LLM概率的量化框架来评估引导向量的有效性。

3. 在多个LLM模型上进行实验,包括Poser模型、Gemma-2-2B-it模型等。

实验结果

实验结果表明,通过优化单个训练示例上的引导向量,可以有效地引导LLM的行为。在Poser模型中,引导向量能够有效地引导模型表现出有害行为。在Gemma-2-2B-it模型中,引导向量能够有效地引导模型拒绝有害请求。此外,实验还发现,引导向量在不同示例上具有低余弦相似度,表明相似的行为可以通过不同的方向来引导。

未来工作

未来工作将包括开发预测引导向量性能的方法,以及研究在多个训练示例上优化引导向量。此外,还将研究如何利用引导向量来提高LLM的鲁棒性和安全性。