Rubric Is All You Need: Enhancing LLM-based Code Evaluation With Question-Specific Rubrics

作者: Aditya Pathak, Rachit Gandhi, Vaibhav Uttam, Devansh, Yashwanth Nakka, Aaryan Raj Jindal, Pratyush Ghosh, Arnav Ramamoorthy, Shreyash Verma, Aditya Mittal, Aashna Ased, Chirag Khatri, Jagat Sesh Challa, Dhruv Kumar

发布时间: 2025-04-02

来源: arxiv

研究方向: 自然语言处理在编程教育中的应用

主要内容

该研究聚焦于利用大型语言模型（LLM）进行代码评估，并提出了一种基于问题特定评分标准的方法，旨在提高代码评估的准确性和效率。

主要贡献

1. 提出了一种新的基于问题特定评分标准的代码评估方法，称为‘完整评分标准评估（CRE）’、‘逐点评分标准评估（PRE）’和‘集成方法评估（EME）’。

2. 创建了两个新的数据集，包含面向对象编程（OOP）和数据结构算法（DSA）课程的代码提交，以评估LLM在代码评估任务中的性能。

3. 引入了一个新的度量标准‘宽容度’，用于衡量评估系统相对于专家评估的严格程度。

4. 通过实证研究表明，问题特定评分标准显著优于问题通用评分标准，提高了评估的准确性和反馈的相关性。

研究方法

1. 使用GPT-4o和Claude 3.7 Sonnet模型进行代码评估。

2. 采用问题特定评分标准进行代码评估。

3. 开发了一套评估方法，包括CRE、PRE和EME。

4. 使用Spearman相关系数、Cohen’s Kappa、宽容度等指标来评估评估方法的性能。

5. 创建了两个新的数据集，包含面向对象编程（OOP）和数据结构算法（DSA）课程的代码提交。

实验结果

实验结果表明，问题特定评分标准在评估代码逻辑正确性和提供相关反馈方面优于问题通用评分标准。EME在DSA数据集上表现出最佳性能，而CRE在OOP数据集上表现出最佳性能。

未来工作

未来的工作将包括探索不同LLM模型的性能差异，评估评分标准在不同粒度上的有效性，以及扩展数据集以涵盖更多编程语言和课程。