Bayesian Optimization for Controlled Image Editing via LLMs

作者: Chengkun Cai, Haoliang Liu, Xu Zhao, Zhongyu Jiang, Tianfang Zhang, Zongkai Wu, Jenq-Neng Hwang, Serge Belongie, Lei Li

发布时间: 2025-02-27

来源: arxiv

研究方向: 计算机视觉,图像处理,自然语言处理

主要内容

本文提出了一种名为BayesGenie的图像编辑框架,该框架结合了大型语言模型(LLMs)和贝叶斯优化,以实现精确且用户友好的图像编辑。通过自然语言描述,用户可以修改图像,同时保持原始图像的语义完整性。

主要贡献

1. 提出了一种新的图像编辑框架BayesGenie,无需手动区域标注或创建掩码即可实现精确的局部编辑。

2. 引入了一个基于贝叶斯优化的自动参数优化系统,消除了手动参数调整或预训练的需求。

3. 通过广泛的实验,证明了该框架在不同编辑场景中具有优异的性能和广泛的适应性。

研究方法

1. 利用LLMs从用户需求中生成详细的提示。

2. 将提示和原始图像输入到扩散模型中生成修改后的图像。

3. 动态优化提示,通过迭代优化过程来改进提示。

4. 使用贝叶斯优化动态调整关键参数,例如'image_cfg_scale'和'text_cfg_scale',以平衡文本和图像组件。

5. 利用LLMs进行评分评估,以更细致地评估生成的图像。

实验结果

实验结果表明,BayesGenie在编辑准确性和语义保持方面显著优于现有方法。通过不同多模态LLMs(包括Claude3和GPT-4)的验证,展示了其 versatility和鲁棒性。

未来工作

改进LLMs,例如通过微调开源LLMs来开发更稳定和一致的模型。扩展该框架,使其适用于其他扩散模型,并测试其在不同场景中的泛化能力。