From Text to Visuals: Using LLMs to Generate Math Diagrams with Vector Graphics

作者: Jaewook Lee, Jeongah Lee, Wanyong Feng, Andrew Lan

发布时间: 2025-03-11

来源: arxiv

研究方向: 利用大型语言模型（LLMs）自动生成数学图表以辅助数学教育

主要内容

本文探讨了使用LLMs自动生成数学问题中的图表，并通过中间SVG表示来伴随文本提示。研究旨在解决三个问题：如何自动生成数学图表、SVG是否是有效的中间表示以及LLMs生成准确SVG图表所需的提示策略和格式。

1. 定义了自动生成SVG图表以伴随文本提示的任务

2. 开发了一个基于LLM提示的管道

3. 确定了改进图表生成的主要策略

4. 引入了一个基于视觉问答（VQA）的评估设置

5. 进行了消融研究以评估不同管道变体

1. 在上下文中学习（ICL）

2. 视觉问答（VQA）

3. 消融研究

实验结果表明，LLMs能够生成与真实图表相似的图表，尤其是在简单数学主题中。然而，当图表生成涉及更复杂的数学概念时，LLMs的性能会下降。此外，实验还表明，使用SVG代码作为中间表示比直接生成像素图像更有效。

未来的工作可以探索不同的图表格式，微调LLMs以专门用于图表生成，将人类反馈集成到图表生成过程中，并增强VQA模型的鲁棒性。