MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors

作者: Jakub Macina, Nico Daheim, Ido Hakimi, Manu Kapur, Iryna Gurevych, Mrinmaya Sachan

发布时间: 2025-02-27

来源: arxiv

研究方向: 人工智能教育

主要内容

本文提出了一种名为 MathTutorBench 的基准,用于评估基于大型语言模型 (LLM) 的数学辅导模型的开放式教学能力。该基准包含一系列数据集和指标,旨在全面评估辅导模型的能力,包括数学专业知识、学生理解能力和教师回应生成能力。

主要贡献

1. 开发了一个名为 MathTutorBench 的基准,用于评估 LLM 教辅模型的开放式教学能力。

2. 提出了一种新的指标来评估教师回应生成的教学质量。

3. 评估了各种开放和封闭权重的 LLM 和专门辅导模型,并发现专业知识与教学能力之间存在权衡。

4. 公开发布了基准、代码和排行榜,以促进对辅导 LLM 的研究。

5. 提供了自动评估方法,以快速且公平地评估模型,从而加速辅导 LLM 的发展。

研究方法

1. 数据集和指标:MathTutorBench 包含三个主要技能:专业知识、学生理解和教学能力,并包含七个不同的任务。

2. 奖励模型:用于评估教师回应生成的教学质量。

3. 实验:评估了各种 LLM 和专门辅导模型在 MathTutorBench 上的表现。

4. 比较:比较了不同模型在解决问题、学生理解和教学能力方面的表现。

实验结果

实验结果表明,在解决问题方面,LLM 表现出色,但在教学能力方面表现不佳。专门的教学模型在教学中有所改进,但牺牲了部分解决能力。此外,随着对话的延长,教学变得更加困难。

未来工作

未来工作将包括将基准扩展到其他 STEM 领域,以增加其适用性;增加对长对话和长期依赖的评估;以及在基准中包含更多安全评估维度。