Gender Encoding Patterns in Pretrained Language Model Representations
作者: Mahdi Zakizadeh, Mohammad Taher Pilehvar
发布时间: 2025-03-11
来源: arxiv
研究方向: 自然语言处理 (NLP) 与偏见缓解
主要内容
研究预训练语言模型 (PLM) 中性别偏见的编码模式,分析不同模型如何表示和传播性别信息,以及偏见缓解技术和微调对编码偏见的影响。
主要贡献
1. 确定了编码基于PLM的性别信息的特定部分,突出了偏见最明显的关键层。
2. 评估了各种去偏见方法的效果,表明预训练去偏见目标在减少编码偏见方面优于事后缓解方法。
3. 揭示了不同模型中性别编码的一致模式。
4. 发现去偏见技术往往效果有限,有时无意中增加了内部表示中的编码偏见,同时减少了模型输出分布中的偏见。
5. 提供了关于推进偏见缓解策略和促进更公平的语言模型发展的宝贵指导。
研究方法
1. 信息论方法,特别是最小描述长度 (MDL) 探针
2. MDL 探针来评估性别偏见在模型表示中的编码方式
3. 分析不同层中 PLM 的表示来识别偏见出现的地点以及微调和去偏见技术如何影响这些表示
4. 使用 Bias in Bios 数据集进行实验,该数据集包含396,347篇个人传记,每篇传记都提供了人物的性别和职业
5. 评估了四种去偏见方法:Counterfactual Data Augmentation (CDA)、Adapter-Based Debiasing (ADELE)、Dropout 和 Orthogonal Projection
实验结果
研究发现,模型在早期层抑制性别信号,而在后期层放大性别信号,将偏见深深嵌入到抽象表示中。当前的去偏见技术,尤其是事后干预,在改变这些内部机制方面效果有限。特定任务的微调减少了编码的性别信息,但风险将残留偏见集中在下游分类器中。这些发现表明,有效的缓解需要针对表示和决策层进行整体干预。
未来工作
未来的工作应探索将训练时间和事后技术相结合的混合策略,以增强偏见抑制,而无需进行完整重训练。此外,应进一步研究任务特定微调与偏见传播之间的相互作用,并验证在解码器和多模态架构中的发现。