Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries

作者: Tianyi Lorena Yan, Robin Jia

发布时间: 2025-03-03

来源: arxiv

研究方向: 自然语言处理、语言模型、可解释性

主要内容

研究语言模型如何回答一对多的事实性查询(例如,列出一个国家的城市),并分析了模型在知识召回和避免重复回答这两个子任务中的内部实现和整合机制。

主要贡献

1. 提出了一个‘促进-抑制-迭代’机制,即模型首先召回所有答案,然后抑制先前生成的答案。

2. 通过Token Lens和敲除方法分析组件如何使用不同的标记,为复杂的事实召回提供了新的见解。

3. 通过广泛的实验证据证实了该机制的有效性,包括早期解码和因果追踪等。

4. 揭示了语言模型内部组件如何与不同的输入标记交互以支持复杂的事实召回。

研究方法

1. 早期解码

2. 因果追踪

3. Token Lens

4. 敲除方法

5. 多任务数据集和模型分析

实验结果

实验结果表明,语言模型在生成答案时首先促进所有可能的答案,然后抑制先前生成的答案。此外,模型使用主题和先前答案标记进行知识召回,同时注意力传播主题信息,MLPs促进答案。然后,注意力关注并抑制先前答案标记,MLPs放大抑制信号。

未来工作

未来工作可以研究模型中的可能冗余,并分析模型在生成错误答案时的行为,以减轻此类错误。此外,可以采用更高级的技术来更好地理解1MKR,并确定研究结果的泛化性。