From Idea to CAD: A Language Model-Driven Multi-Agent System for Collaborative Design

作者: Felix Ocker, Stefan Menzel, Ahmed Sadik, Thiago Rios

发布时间: 2025-03-07

来源: arxiv

研究方向: 计算机辅助设计 (CAD) 与大型语言模型 (LLM) 在工程设计中的应用

主要内容

该研究提出了一种基于视觉语言模型 (VLM) 的多智能体系统 (MAS),用于协作设计过程。该系统模仿了工程设计过程中的关键阶段,如需求获取、模型创建、验证和验证,并结合了要求工程师、CAD 工程师和基于视觉的质量保证工程师的智能代理。

主要贡献

1. 提出了一种基于 VLM 的 MAS 用于 CAD 模型生成,该系统模仿了关键的人类开发过程步骤。

2. 引入了一种方法来处理 VLM 在生成 3D 模型时的空间推理局限性,通过视觉自我反馈和人工验证来应对。

3. 提供了一个适用于各种场景的架构,从工程师快速从草图生成模型到新手用户绕过 CAD 的高门槛,并使用消费级 3D 打印设备创建模型。

研究方法

1. 使用 VLM 解释输入草图、图像和文本描述,并生成 CAD 代码。

2. 利用智能代理模仿工程设计过程中的不同角色,如需求工程师、CAD 工程师和质量保证工程师。

3. 实施迭代验证循环,以便在用户参与下对生成的模型进行协作改进。

4. 通过实验和消融研究来评估系统组件的有效性。

实验结果

实验结果表明,与传统的 VLM 相比,该系统在生成设计准备程度更高的模型方面具有优势。然而,该系统在处理复杂组件和表面方向方面仍然存在挑战。

未来工作

未来的工作可能包括改进代码生成过程,引入更细粒度的迭代过程来将设计计划转换为实际代码,以及使用视觉确认循环逐步创建模型的特征。此外,还可能探索允许专家用户编辑生成的代码,并使用针对特定训练语料库微调的 VLM 来提高系统性能。