Norm Growth and Stability Challenges in Localized Sequential Knowledge Editing

作者: Akshat Gupta, Christine Fang, Atahan Ozdemir, Maochuan Lu, Ahmed Alaa, Thomas Hartvigsen, Gopala Anumanchipalli

发布时间: 2025-02-27

来源: arxiv

研究方向: 大语言模型(LLMs)的局部知识编辑与模型稳定性

主要内容

本研究探讨了在大语言模型(LLMs)中进行局部知识编辑时,更新矩阵的Frobenius范数增长现象及其对模型稳定性和性能的影响。研究发现,无论是持续预训练、全微调还是基于LORA的微调,更新矩阵的范数都会增加。这种范数增长在局部知识编辑中尤为显著,可能导致模型失衡和下游性能下降。研究还发现,内部激活向量的范数减少,并且这些向量在表示空间中的位置发生变化,表明编辑后的模型与未编辑模型在表示空间中的行为存在显著差异。

主要贡献

1. 证明了在多种后训练干预方法中,更新权重矩阵的Frobenius范数总是增加。

2. 揭示了局部知识编辑中更新矩阵范数的不成比例增长,导致模型崩溃。

3. 发现模型崩溃伴随着内部激活向量范数和方向的变化,表明编辑后的模型激活向量位于表示空间的不同区域。

研究方法

1. 持续预训练(CPT)

2. 全微调(FFT)

3. 基于LORA的微调(LFFT)

4. 局部知识编辑方法(如ROME、MEMIT、MEND、PMET)

5. 内部激活向量分析

实验结果

实验结果表明,所有后训练干预方法中,更新矩阵的Frobenius范数均增加。局部知识编辑中,更新矩阵的范数增长尤为显著,导致模型性能下降。内部激活向量的范数减少,且这些向量在表示空间中的位置发生变化,表明编辑后的模型与未编辑模型在表示空间中的行为存在显著差异。

未来工作

未来的研究应关注如何通过正则化等方法解决局部知识编辑中的范数增长问题,以实现更稳健的模型更新。此外,进一步探索激活向量变化对模型性能的具体影响,以及开发更高效的局部知识编辑方法,也是未来研究的重要方向。