Shifting Perspectives: Steering Vector Ensembles for Robust Bias Mitigation in LLMs

作者: Zara Siddique, Irtaza Khalid, Liam D. Turner, Luis Espinosa-Anke

发布时间: 2025-03-10

来源: arxiv

研究方向: 大型语言模型(LLMs)中的偏见缓解与社会公平

主要内容

本文提出了一种新的方法,通过应用引导矢量来修改大型语言模型(LLMs)的前向激活,以减轻LLMs中的偏见。该方法利用贝叶斯优化系统地识别有效的对比数据集,并引入了引导矢量集成(SVE),这是一种通过组合针对特定偏见轴的多个单独优化的引导矢量来平均多个引导矢量以修改激活的方法。

主要贡献

1. 首次将引导矢量应用于社会偏见,如种族、性别、社会经济和年龄偏见。

2. 提出了一种框架,通过贝叶斯优化系统地识别有效的对比数据集,增强了先前激活引导方法的有效性。

3. 引入了引导矢量集成(SVE),这是一种通过结合针对特定偏见轴的多个单独优化的引导矢量来修改激活的方法。

4. 强调了数据集选择在激活引导中的重要性,并提供了一种轻量级、稳健且可解释的干预措施,在不重新训练或大规模数据收集的情况下提高公平性。

5. 证明了SVE利用多个调整后的引导矢量的集体优势,比单个矢量单独提供了更稳健和有效的偏见缓解方法。

研究方法

1. 引导矢量构造:使用线性人工断层扫描(LAT)方法从对比数据集中提取引导矢量。

2. 引导矢量应用:将选定的引导矢量添加到所选层(l)的隐藏状态中。

3. 引导矢量集成(SVE):通过平均多个针对不同偏见概念的引导矢量来近似偏见的通用表示。

4. 贝叶斯优化:用于系统地识别有效的对比数据集。

5. 对比数据集:由指令、对比对和任务提示组成。

实验结果

实验结果表明,与基线相比,单独优化的引导矢量(ISV)在BBQ基准测试中显著提高了偏见缓解。SVE在偏见缓解和保持模型性能方面优于单个引导矢量。SVE在BBQ和MMLU基准测试中均优于所有其他方法,表明其作为公平干预措施的通用性和效率。

未来工作

未来工作可以探索以下方向: - 研究不同的对比数据集结构,并扩展贝叶斯优化以包括干预层的选择。 - 在其他基准测试中评估引导矢量,以解决当前局限性并验证方法的泛化能力。 - 研究不同的引导矢量子集组合,并考虑其他聚合方法,如加权平均值或中位数向量。 - 将SVE应用于LLMs中偏见缓解以外的其他领域。