TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding
作者: Max Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen
发布时间: 2025-02-27
来源: arxiv
研究方向: 多模态定理解释与AI生成教育视频
主要内容
本文提出了TheoremExplainAgent,一个基于LLM的多模态定理解释生成系统,旨在通过生成长视频来解释复杂的STEM定理。系统结合了文本、视觉和音频元素,使用Manim库生成动画视频,并通过TheoremExplainBench基准数据集进行评估。研究揭示了AI在生成长视频方面的潜力,同时也指出了视觉布局和推理错误暴露的挑战。
主要贡献
1. 提出了AI生成多模态定理解释的新任务,并定义了相关挑战。
2. 开发了TheoremExplainAgent,一个基于代理的AI系统,用于生成解释性视频。
3. 构建了TheoremExplainBench,一个包含240个定理的基准数据集,涵盖多个STEM学科。
4. 提出了5个自动评估指标,用于评估AI生成的多模态解释。
研究方法
1. 使用LLM代理(Planner Agent和Coding Agent)进行视频生成,Planner Agent负责生成视频计划和场景描述,Coding Agent负责生成Manim动画脚本。
2. 采用Retrieval-Augmented Generation (RAG)方法,结合Manim文档进行代码生成和错误修复。
3. 使用TheoremExplainBench数据集进行系统评估,涵盖数学、物理、化学和计算机科学等多个学科。
4. 通过自动评估和人工评估相结合的方式,评估视频的准确性、视觉相关性、逻辑流、元素布局和视觉一致性。
实验结果
实验结果表明,TheoremExplainAgent能够生成长达10分钟的视频,成功率为93.8%,总体得分为0.77。o3-mini模型在生成复杂定理解释方面表现最佳,但在视觉布局上仍存在一些细微问题。多模态解释能够更有效地暴露AI系统的推理错误,而文本解释则难以揭示这些错误。
未来工作
未来的研究应集中在改进视觉布局技术、增强代理协调能力以及提升视频理解能力,以进一步优化LLM驱动的多模态定理解释。此外,还需要建立AI生成教育视频的基准,评估其对学习效果的影响,并探索如何将交互元素融入视频中以增强用户参与度。