From Text to Visuals: Using LLMs to Generate Math Diagrams with Vector Graphics

作者: Jaewook Lee, Jeongah Lee, Wanyong Feng, Andrew Lan

发布时间: 2025-03-11

来源: arxiv

研究方向: 利用大型语言模型(LLMs)自动生成数学图表以辅助数学教育

主要内容

本文探讨了使用LLMs自动生成数学问题中的图表,并通过中间SVG表示来伴随文本提示。研究旨在解决三个问题:如何自动生成数学图表、SVG是否是有效的中间表示以及LLMs生成准确SVG图表所需的提示策略和格式。

主要贡献

1. 定义了自动生成SVG图表以伴随文本提示的任务

2. 开发了一个基于LLM提示的管道

3. 确定了改进图表生成的主要策略

4. 引入了一个基于视觉问答(VQA)的评估设置

5. 进行了消融研究以评估不同管道变体

研究方法

1. 在上下文中学习(ICL)

2. 视觉问答(VQA)

3. 消融研究

实验结果

实验结果表明,LLMs能够生成与真实图表相似的图表,尤其是在简单数学主题中。然而,当图表生成涉及更复杂的数学概念时,LLMs的性能会下降。此外,实验还表明,使用SVG代码作为中间表示比直接生成像素图像更有效。

未来工作

未来的工作可以探索不同的图表格式,微调LLMs以专门用于图表生成,将人类反馈集成到图表生成过程中,并增强VQA模型的鲁棒性。