Social Bias Benchmark for Generation: A Comparison of Generation and QA-Based Evaluations
作者: Jiho Jin, Woosung Kang, Junho Myung, Alice Oh
发布时间: 2025-03-11
来源: arxiv
研究方向: 语言模型的社会偏见评估与消除
主要内容
本文提出了一种名为BBG(Bias Benchmark for Generation)的评估框架,用于评估大型语言模型(LLM)在故事生成任务中的社会偏见。通过将QA(Question Answering)任务中的BBQ(Bias Benchmark for QA)框架进行改造,BBG通过让LLM生成故事续写来评估其社会偏见,并与传统的QA评估方法进行了比较。
主要贡献
1. 提出了基于故事生成的LLM社会偏见评估方法,并引入了BBG评估框架。
2. 评估了10种LLM在故事生成任务中的中性生成和偏见生成比例。
3. 比较了基于QA和基于生成的LLM偏见评估方法,证明了两种方法的差异。
4. 构建了英语BBG(EnBBG)和韩语BBG(KoBBG)数据集,并基于此进行了实验。
5. 发现LLM在长文本生成和阅读理解QA任务中表现出不同的社会偏见,强调了多选题评估的局限性。
研究方法
1. 将BBQ框架改造为BBG,通过生成故事续写来评估LLM的社会偏见。
2. 使用机器阅读理解(MRC)来评估生成的故事的偏见。
3. 比较了BBG和BBQ评估结果,以分析LLM在不同评估任务中的偏见表现。
4. 对LLM进行实验,以评估其在故事生成任务中的偏见程度。
实验结果
实验结果表明,LLM在故事生成任务中的中性生成比例仅为49%至69%,而偏见生成比例则高于10%至25%。与BBQ评估结果相比,LLM在故事生成任务中的偏见得分更高,这表明基于生成的评估方法比基于QA的评估方法更能反映LLM的社会偏见。
未来工作
未来将扩展BBG评估框架,以涵盖更多语言和更多类型的LLM。此外,将探索更复杂的社会偏见评估方法,以更好地捕捉LLM在现实世界中的偏见表现。