BiasEdit: Debiasing Stereotyped Language Models via Model Editing

作者: Xin Xu, Wei Xu, Ningyu Zhang, Julian McAuley

发布时间: 2025-03-12

来源: arxiv

研究方向: 自然语言处理(NLP)中的偏见消除与模型编辑

主要内容

本文提出了一种名为BIASEDIT的模型编辑方法,用于消除语言模型中的刻板印象偏见。该方法通过轻量级网络生成参数更新,对语言模型的局部参数进行编辑,以消除偏见,同时保留语言模型的能力。

主要贡献

1. 提出了一种基于模型编辑的偏见消除方法BIASEDIT

2. 通过编辑网络对语言模型的部分参数进行局部编辑,以消除偏见

3. 设计了保留损失来避免编辑过程中影响无关关联,以保留语言模型的能力

4. 在StereoSet和Crows-Pairs数据集上进行了实验,证明了BIASEDIT在消除偏见方面的有效性、效率和鲁棒性

研究方法

1. 模型编辑

2. 编辑网络

3. 保留损失

4. 对称KL散度损失

5. 批量编辑

实验结果

实验结果表明,BIASEDIT在消除偏见方面优于现有的偏见消除方法,并且对语言模型的语言建模能力和泛化能力影响很小。此外,BIASEDIT对性别反转和语义泛化具有鲁棒性。

未来工作

将BIASEDIT应用于文本生成形式的偏见消除,例如问答和文本续写。此外,构建带有标签的偏见数据集,以用于文本生成任务的偏见消除研究。