Teach-to-Reason with Scoring: Self-Explainable Rationale-Driven Multi-Trait Essay Scoring

作者: Heejin Do, Sangwon Ryu, Gary Geunbae Lee

发布时间: 2025-03-03

来源: arxiv

研究方向: 自然语言处理(NLP)在教育评估中的应用,特别是自动作文评分(AES)系统

主要内容

本文提出了一种名为RaDME(Rationale-Driven Multi-trait Essay Scoring)的自动作文评分方法,该方法旨在提高AES系统的可解释性和评分准确性。RaDME利用大型语言模型(LLM)的推理能力,通过知识蒸馏将其整合到一个更小、更有效的评分模型中,该模型能够生成评分和相应的理由,从而确保评分决策具有清晰的、可辩护的推理基础。

主要贡献

1. 提出了RaDME,这是一种自解释的、基于理由的多特质AES方法,它明确生成评分及其相应的理由,确保评分的透明性和准确性。

2. 通过为LLM提供明确的数值特质评分,提取了清晰、连贯、结构良好的理由,有效地支持了学生模型生成高质量的解释。

3. 通过蒸馏评分能力较差的LLM的推理能力,RaDME实现了高效的和可扩展的AES,使轻量级模型适合在现实世界部署中进行自我解释和评分。

4. 研究发现,基于评分的建模显著提高了评分一致性和解释质量。

研究方法

1. 知识蒸馏:利用LLM作为教师,一个较小的语言模型作为学生,将LLM的推理能力蒸馏到一个更小、更有效的评分模型中。

2. 评分引导提示:向LLM提供明确的特质评分,使其专注于生成精确的理由。

3. 多任务学习:通过优化模型以特质理由评分对作为多任务学习方法,构建一个能够推理和评分多个特质的统一模型。

4. 自回归评分预测:使用自回归评分预测方法预测每个特质,确保稳定性。

5. 评分-理由生成顺序:先生成评分,然后生成理由,以确保评分决策和解释之间的对齐。

实验结果

实验结果表明,RaDME在多个特性和提示上实现了稳健的评分性能,同时提供了高质量的推理。与最近的SOTA方法相比,RaDME在评分性能上有所超越,同时产生了高质量的推理。实验结果表明,RaDME在评分和推理生成方面都表现出色。

未来工作

评估RaDME在现实世界教育环境中的实际影响,特别是在以人为中心的人际互动中。研究教育工作者和学生如何感知、解释和使用RaDME提供的基于理由的反馈。