Detecting Linguistic Indicators for Stereotype Assessment with Large Language Models

作者: Rebekka Görge, Michael Mock, Héctor Allende-Cid

发布时间: 2025-02-27

来源: arxiv

研究方向: 自然语言处理(NLP)与人工智能(AI)的公平性和偏见

主要内容

该论文提出了一种基于大型语言模型(LLM)的新的方法来检测和量化文本中的刻板印象的语言指标。该方法基于社会类别和刻板印象沟通(SCSC)框架,并结合了LLM的上下文学习能力,以自动检测和量化语言中的刻板印象指标。

主要贡献

1. 提出了一种基于SCSC框架的刻板印象检测方法,该方法使用LLM的上下文学习能力自动检测和量化语言中的刻板印象指标。

2. 开发了一种基于语言指标的刻板印象强度评分函数,该函数可以量化刻板印象的强度。

3. 在CrowS-Pairs数据集上对所提出的方法进行了实证评估,结果表明该方法在检测和分类刻板印象的语言指标方面表现良好。

研究方法

1. 使用SCSC框架来定义刻板印象的语言指标。

2. 利用LLM的上下文学习能力来自动检测和分类这些语言指标。

3. 开发了一个评分函数来量化刻板印象的强度。

4. 在CrowS-Pairs数据集上对所提出的方法进行了实证评估。

实验结果

实验结果表明,所提出的方法在检测和分类刻板印象的语言指标方面表现良好。大型LLM(如Llama-3.3-70B和GPT-4)在检测这些指标方面特别有效。然而,在评估细微方面(如含义和泛化)时仍存在挑战。

未来工作

未来的工作将集中在以下几个方面:1)扩展评分函数以包括与行为或特征相关的情感指标;2)将该方法集成到一个更大的框架中,该框架也处理刻板印象的检测;3)将方法应用于更广泛的文本数据集;4)改进LLM在评估细微方面(如含义和泛化)的性能。