Teach-to-Reason with Scoring: Self-Explainable Rationale-Driven Multi-Trait Essay Scoring

作者: Heejin Do, Sangwon Ryu, Gary Geunbae Lee

发布时间: 2025-03-03

来源: arxiv

研究方向: 自然语言处理（NLP）在教育评估中的应用，特别是自动作文评分（AES）系统

主要内容

本文提出了一种名为RaDME（Rationale-Driven Multi-trait Essay Scoring）的自动作文评分方法，该方法旨在提高AES系统的可解释性和评分准确性。RaDME利用大型语言模型（LLM）的推理能力，通过知识蒸馏将其整合到一个更小、更有效的评分模型中，该模型能够生成评分和相应的理由，从而确保评分决策具有清晰的、可辩护的推理基础。

主要贡献

1. 提出了RaDME，这是一种自解释的、基于理由的多特质AES方法，它明确生成评分及其相应的理由，确保评分的透明性和准确性。

2. 通过为LLM提供明确的数值特质评分，提取了清晰、连贯、结构良好的理由，有效地支持了学生模型生成高质量的解释。

3. 通过蒸馏评分能力较差的LLM的推理能力，RaDME实现了高效的和可扩展的AES，使轻量级模型适合在现实世界部署中进行自我解释和评分。

4. 研究发现，基于评分的建模显著提高了评分一致性和解释质量。

研究方法

1. 知识蒸馏：利用LLM作为教师，一个较小的语言模型作为学生，将LLM的推理能力蒸馏到一个更小、更有效的评分模型中。

2. 评分引导提示：向LLM提供明确的特质评分，使其专注于生成精确的理由。

3. 多任务学习：通过优化模型以特质理由评分对作为多任务学习方法，构建一个能够推理和评分多个特质的统一模型。

4. 自回归评分预测：使用自回归评分预测方法预测每个特质，确保稳定性。

5. 评分-理由生成顺序：先生成评分，然后生成理由，以确保评分决策和解释之间的对齐。

实验结果

实验结果表明，RaDME在多个特性和提示上实现了稳健的评分性能，同时提供了高质量的推理。与最近的SOTA方法相比，RaDME在评分性能上有所超越，同时产生了高质量的推理。实验结果表明，RaDME在评分和推理生成方面都表现出色。

未来工作

评估RaDME在现实世界教育环境中的实际影响，特别是在以人为中心的人际互动中。研究教育工作者和学生如何感知、解释和使用RaDME提供的基于理由的反馈。