Can LLMs Explain Themselves Counterfactually?
作者: Zahra Dehghanighobadi, Asja Fischer, Muhammad Bilal Zafar
发布时间: 2025-02-27
来源: arxiv
研究方向: 人工智能与机器学习
主要内容
该研究探讨了大型语言模型(LLMs)在生成自我生成的反事实解释(SCEs)方面的能力。SCEs是一种特殊的自我解释方法,它通过修改输入来引导模型生成不同的输出,从而提供对模型预测的洞察。
主要贡献
1. 设计并评估了LLMs生成SCEs的能力。
2. 发现了LLMs在生成有效SCEs方面的挑战,包括预测不准确和需要大量输入更改。
3. 揭示了LLMs在生成SCEs时对上下文的依赖,以及这如何影响预测的准确性。
4. 提供了关于LLMs解释能力的见解,为未来研究和改进提供了基础。
研究方法
1. 通过设计实验来评估LLMs生成SCEs的能力。
2. 使用多种LLMs和不同大小的模型进行实验。
3. 使用多个数据集来测试LLMs在不同任务上的表现。
4. 通过计算生成SCEs的百分比、反事实有效性、编辑距离等指标来评估SCEs的质量。
5. 使用基于理由的提示方法来生成SCEs,并比较其效果。
实验结果
研究表明,LLMs在生成SCEs方面存在挑战,包括生成无效的反事实和需要大量输入更改。此外,LLMs对上下文的依赖对预测准确性有重大影响。在数学推理任务中,反事实的有效性特别低。
未来工作
未来的工作可以包括将反事实解释能力纳入LLMs的训练过程,探索提示调整的影响,以及扩展分析到更复杂的任务。此外,可以研究如何从人类视角评估解释的可信度,并改进LLMs的解释能力。