From Text to Visuals: Using LLMs to Generate Math Diagrams with Vector Graphics
作者: Jaewook Lee, Jeongah Lee, Wanyong Feng, Andrew Lan
发布时间: 2025-03-11
来源: arxiv
研究方向: 利用大型语言模型(LLMs)自动生成数学图表以辅助数学教育
主要内容
本文探讨了使用LLMs自动生成数学问题中的图表,并通过中间SVG表示来伴随文本提示。研究旨在解决三个问题:如何自动生成数学图表、SVG是否是有效的中间表示以及LLMs生成准确SVG图表所需的提示策略和格式。
主要贡献
1. 定义了自动生成SVG图表以伴随文本提示的任务
2. 开发了一个基于LLM提示的管道
3. 确定了改进图表生成的主要策略
4. 引入了一个基于视觉问答(VQA)的评估设置
5. 进行了消融研究以评估不同管道变体
研究方法
1. 在上下文中学习(ICL)
2. 视觉问答(VQA)
3. 消融研究
实验结果
实验结果表明,LLMs能够生成与真实图表相似的图表,尤其是在简单数学主题中。然而,当图表生成涉及更复杂的数学概念时,LLMs的性能会下降。此外,实验还表明,使用SVG代码作为中间表示比直接生成像素图像更有效。
未来工作
未来的工作可以探索不同的图表格式,微调LLMs以专门用于图表生成,将人类反馈集成到图表生成过程中,并增强VQA模型的鲁棒性。