Reasoning and Sampling-Augmented MCQ Difficulty Prediction via LLMs

作者: Wanyong Feng, Peter Tran, Stephen Sireci, Andrew Lan

发布时间: 2025-03-13

来源: arxiv

研究方向: 教育评估与人工智能

主要内容

本文提出了一种基于大型语言模型（LLMs）的MCQ难度预测方法，旨在通过理解MCQ的复杂性和迷惑性来预测难度。

1. 提出了一种两阶段的MCQ难度预测方法，结合了LLMs和项响应理论（IRT）。

2. 使用LLMs生成推理步骤和反馈信息，以更好地理解MCQ的复杂性和迷惑性。

3. 通过采样知识水平来考虑学生对MCQ的差异性，从而提高预测的准确性。

4. 在两个数学MCQ数据集上进行了实验，结果表明该方法优于所有基线方法。

1. 使用GPT-4o生成推理步骤和反馈信息。

2. 使用Longformer提取MCQ选项的潜在特征。

3. 从标准多变量正态分布中采样学生知识水平。

4. 使用多层感知器（MLP）预测学生选择每个选项的可能性。

5. 使用KL散度最小化目标来训练模型。

在两个数学MCQ数据集上，该方法在均方误差和确定系数等指标上均优于所有基线方法。

探索学习学生知识水平分布、预测2PL IRT模型中的区分参数以及在其他领域应用该方法。