PyEvalAI: AI-assisted evaluation of Jupyter Notebooks for immediate personalized feedback

作者: Nils Wandel, David Stotko, Alexander Schier, Reinhard Klein

发布时间: 2025-02-27

来源: arxiv

研究方向: 人工智能在教育领域的应用,特别是AI辅助教学和评估系统

主要内容

本文介绍了一种名为PyEvalAI的AI辅助评估系统,该系统旨在为STEM课程中的学生提供即时个性化的反馈,并减轻教师的工作负担。PyEvalAI通过结合单元测试和本地语言模型自动评分Jupyter笔记本,同时确保数据隐私。

主要贡献

1. 开发了一个开源的AI辅助评估系统PyEvalAI,能够为Jupyter笔记本提供自动评分和反馈

2. 通过结合单元测试和本地语言模型,实现了对Markdown、LaTeX和Python代码的自动评估

3. 确保了数据隐私,避免了将学生数据发送到外部提供商

4. 为教师提供了实时查看和调整评分和反馈的界面

研究方法

1. 单元测试

2. 本地语言模型

3. Tornado服务器

4. WebSockets

5. LDAP

6. Pickle文件存储

实验结果

在案例研究中,PyEvalAI在数值课程中表现出色,其评分与人类教师的评分高度一致。学生通过多次尝试改进他们的解决方案,平均提高了25% - 30%的分数。大多数学生对PyEvalAI的评分和反馈感到满意,并愿意在未来使用它。

未来工作

将PyEvalAI引入更多课程,以补充辅导课程。建立一个越来越大的练习库,学生解决方案,AI和教师反馈数据库,以便对不同的LLM进行彻底的比较,并帮助改进提示策略和微调模型。随着本地LLM变得越来越强大和准确,学生的学习体验将得到进一步改善,教师将能够将重点从重复评分转移到在辅导中为学生提供个性化反馈。