BiasEdit: Debiasing Stereotyped Language Models via Model Editing

作者: Xin Xu, Wei Xu, Ningyu Zhang, Julian McAuley

发布时间: 2025-03-12

来源: arxiv

研究方向: 自然语言处理（NLP）中的偏见消除与模型编辑

主要内容

本文提出了一种名为BIASEDIT的模型编辑方法，用于消除语言模型中的刻板印象偏见。该方法通过轻量级网络生成参数更新，对语言模型的局部参数进行编辑，以消除偏见，同时保留语言模型的能力。

1. 提出了一种基于模型编辑的偏见消除方法BIASEDIT

2. 通过编辑网络对语言模型的部分参数进行局部编辑，以消除偏见

3. 设计了保留损失来避免编辑过程中影响无关关联，以保留语言模型的能力

4. 在StereoSet和Crows-Pairs数据集上进行了实验，证明了BIASEDIT在消除偏见方面的有效性、效率和鲁棒性

1. 模型编辑

2. 编辑网络

3. 保留损失

4. 对称KL散度损失

5. 批量编辑

实验结果表明，BIASEDIT在消除偏见方面优于现有的偏见消除方法，并且对语言模型的语言建模能力和泛化能力影响很小。此外，BIASEDIT对性别反转和语义泛化具有鲁棒性。

将BIASEDIT应用于文本生成形式的偏见消除，例如问答和文本续写。此外，构建带有标签的偏见数据集，以用于文本生成任务的偏见消除研究。