Rubrik's Cube: Testing a New Rubric for Evaluating Explanations on the CUBE dataset

作者: Diana Galvan-Sosa, Gabrielle Gaudeau, Pride Kavumba, Yunmeng Li, Hongyi gu, Zheng Yuan, Keisuke Sakaguchi, Paula Buttery

发布时间: 2025-04-03

来源: arxiv

研究方向: 自然语言处理与人工智能

主要内容

该研究旨在通过设计一个评估框架来评估大型语言模型(LLMs)生成解释的质量,并提出一个名为 Rubrik 的评估工具。Rubrik 的设计基于教育原则,结合了来自教育、可解释人工智能(XAI)和自然语言生成(NLG)领域的见解。

主要贡献

1. 设计并实现了一个名为 Rubrik 的评估框架,用于评估 LLMs 生成解释的质量。

2. 创建了一个包含 26k 个解释的 CUBE 数据集,该数据集由人类和六种 LLMs 生成。

3. 提出了两个自定义协议指标,以考虑 Rubrik 的分层和嵌套性质。

4. 通过 Rubrik 发现,解释受任务和感知难度的影响,低质量主要源于 LLM 生成解释的简洁性不足,而不是连贯性和词汇选择。

研究方法

1. 设计了一个基于教育原则的评估框架,该框架包括组件和维度。

2. 创建了一个包含 26k 个解释的 CUBE 数据集,该数据集由人类和六种 LLMs 生成。

3. 使用 Rubrik 对 CUBE 数据集中的解释进行评估。

4. 设计并实现了两个自定义协议指标,以考虑 Rubrik 的分层和嵌套性质。

5. 使用 Cohen's κ 和 Krippendorff's α 等指标来评估评分者之间的可靠性。

实验结果

实验结果表明,Rubrik 可以有效地识别高质量和低质量的解释。此外,实验还表明,解释的质量受任务和感知难度的影响,低质量主要源于 LLM 生成解释的简洁性不足。

未来工作

未来的工作将包括开发一个更细粒度的评分系统,以反映解释质量的不同程度。此外,未来的研究还将探索直接评估推理质量的方法。