FaithUn: Toward Faithful Forgetting in Language Models by Investigating the Interconnectedness of Knowledge

作者: Nakyeong Yang, Minsung Kim, Seunghyun Yoon, Joongbo Shin, Kyomin Jung

发布时间: 2025-02-27

来源: arxiv

研究方向: 语言模型知识遗忘

主要内容

该研究针对语言模型中知识遗忘的问题，提出了一种新的方法来确保在遗忘特定知识的同时，保留相关但不相关的知识，避免知识遗忘的表面化现象。

1. 定义了表面遗忘的概念，并提出了FAITHUN基准来评估语言模型中知识遗忘的忠实度。

2. 提出了KLUE方法，通过识别与目标知识相关的神经元并仅更新这些神经元来实现忠实遗忘。

3. 通过实验证明了KLUE方法在真实世界的知识问答设置中比现有方法更有效。

1. 知识量化：使用归因方法量化每个神经元对预测答案的贡献。

2. 表面知识正则化：通过排除与上下文无关的信息来提高知识相关性的量化。

3. 未遗忘样本定位遗忘：选择未充分遗忘的样本以保留泛化性能。

4. 知识神经元定位遗忘：仅更新与目标知识相关的神经元。

实验结果表明，KLUE方法在FAITHUN基准上显著优于基线方法，有效减少了表面遗忘现象，同时保持了模型的整体知识。

研究未来将探讨更广泛的实体范围，以及如何处理知识遗忘过程中的幻觉问题。