BiasEdit: Debiasing Stereotyped Language Models via Model Editing
作者: Xin Xu, Wei Xu, Ningyu Zhang, Julian McAuley
发布时间: 2025-03-12
来源: arxiv
研究方向: 自然语言处理(NLP)中的偏见消除与模型编辑
主要内容
本文提出了一种名为BIASEDIT的模型编辑方法,用于消除语言模型中的刻板印象偏见。该方法通过轻量级网络生成参数更新,对语言模型的局部参数进行编辑,以消除偏见,同时保留语言模型的能力。
主要贡献
1. 提出了一种基于模型编辑的偏见消除方法BIASEDIT
2. 通过编辑网络对语言模型的部分参数进行局部编辑,以消除偏见
3. 设计了保留损失来避免编辑过程中影响无关关联,以保留语言模型的能力
4. 在StereoSet和Crows-Pairs数据集上进行了实验,证明了BIASEDIT在消除偏见方面的有效性、效率和鲁棒性
研究方法
1. 模型编辑
2. 编辑网络
3. 保留损失
4. 对称KL散度损失
5. 批量编辑
实验结果
实验结果表明,BIASEDIT在消除偏见方面优于现有的偏见消除方法,并且对语言模型的语言建模能力和泛化能力影响很小。此外,BIASEDIT对性别反转和语义泛化具有鲁棒性。
未来工作
将BIASEDIT应用于文本生成形式的偏见消除,例如问答和文本续写。此外,构建带有标签的偏见数据集,以用于文本生成任务的偏见消除研究。