Teach-to-Reason with Scoring: Self-Explainable Rationale-Driven Multi-Trait Essay Scoring
作者: Heejin Do, Sangwon Ryu, Gary Geunbae Lee
发布时间: 2025-03-03
来源: arxiv
研究方向: 自然语言处理(NLP)在教育评估中的应用,特别是自动作文评分(AES)系统
主要内容
本文提出了一种名为RaDME(Rationale-Driven Multi-trait Essay Scoring)的自动作文评分方法,该方法旨在提高AES系统的可解释性和评分准确性。RaDME利用大型语言模型(LLM)的推理能力,通过知识蒸馏将其整合到一个更小、更有效的评分模型中,该模型能够生成评分和相应的理由,从而确保评分决策具有清晰的、可辩护的推理基础。
主要贡献
1. 提出了RaDME,这是一种自解释的、基于理由的多特质AES方法,它明确生成评分及其相应的理由,确保评分的透明性和准确性。
2. 通过为LLM提供明确的数值特质评分,提取了清晰、连贯、结构良好的理由,有效地支持了学生模型生成高质量的解释。
3. 通过蒸馏评分能力较差的LLM的推理能力,RaDME实现了高效的和可扩展的AES,使轻量级模型适合在现实世界部署中进行自我解释和评分。
4. 研究发现,基于评分的建模显著提高了评分一致性和解释质量。
研究方法
1. 知识蒸馏:利用LLM作为教师,一个较小的语言模型作为学生,将LLM的推理能力蒸馏到一个更小、更有效的评分模型中。
2. 评分引导提示:向LLM提供明确的特质评分,使其专注于生成精确的理由。
3. 多任务学习:通过优化模型以特质理由评分对作为多任务学习方法,构建一个能够推理和评分多个特质的统一模型。
4. 自回归评分预测:使用自回归评分预测方法预测每个特质,确保稳定性。
5. 评分-理由生成顺序:先生成评分,然后生成理由,以确保评分决策和解释之间的对齐。
实验结果
实验结果表明,RaDME在多个特性和提示上实现了稳健的评分性能,同时提供了高质量的推理。与最近的SOTA方法相比,RaDME在评分性能上有所超越,同时产生了高质量的推理。实验结果表明,RaDME在评分和推理生成方面都表现出色。
未来工作
评估RaDME在现实世界教育环境中的实际影响,特别是在以人为中心的人际互动中。研究教育工作者和学生如何感知、解释和使用RaDME提供的基于理由的反馈。