Revealing and Mitigating Over-Attention in Knowledge Editing
作者: Pinzheng Wang, Zecheng Tang, Keyan Zhou, Juntao Li, Qiaoming Zhu, Min Zhang
发布时间: 2025-02-24
来源: arxiv
研究方向: 大型语言模型(LLM)的知识编辑与优化
主要内容
本文研究了大型语言模型在知识编辑过程中出现的特定性失败问题,即模型在编辑知识后,对相关实体过度关注,导致预测结果与上下文语义不符。针对这一问题,提出了Selective Attention Drift Restriction(SADR)方法,通过限制注意力权重分布的变化,防止对编辑实体的过度关注,从而缓解特定性失败。
主要贡献
1. 提出了Selective Attention Drift Restriction(SADR)方法,有效缓解了知识编辑过程中的特定性失败问题。
2. 通过实验验证了SADR方法在多种知识编辑方法和模型上的有效性。
3. 分析了特定性失败的原因,揭示了注意力机制在其中的作用。
4. 为知识编辑领域提供了新的研究方向和思路。
研究方法
1. 基于注意力机制的模型分析
2. 知识编辑方法
3. 实验验证
实验结果
实验结果表明,SADR方法在多种知识编辑方法和模型上均能显著缓解特定性失败问题,同时保持编辑成功率和泛化能力。
未来工作
未来将深入研究以下问题:1)针对更复杂的知识编辑场景,如批量编辑和序列编辑;2)针对不同架构的模型,如基于知识电路的模型;3)结合其他技术,如知识增强和元学习,进一步提高知识编辑的性能。