Bayesian Optimization for Controlled Image Editing via LLMs

作者: Chengkun Cai, Haoliang Liu, Xu Zhao, Zhongyu Jiang, Tianfang Zhang, Zongkai Wu, Jenq-Neng Hwang, Serge Belongie, Lei Li

发布时间: 2025-02-27

来源: arxiv

研究方向: 图像生成与编辑,结合大型语言模型(LLM)与贝叶斯优化技术

主要内容

提出了一种名为BayesGenie的图像编辑框架,该框架结合了大型语言模型(LLM)和贝叶斯优化技术,旨在实现精确且用户友好的图像编辑。用户可以通过自然语言描述来修改图像,而无需手动标记区域,同时保持原始图像的语义完整性。

主要贡献

1. 提出了一种无需手动区域标注或创建掩码的精确局部编辑图像编辑框架。

2. 引入了一种基于贝叶斯优化的自动化参数优化系统,消除了手动参数调整或预训练的需求。

3. 通过广泛的实验,证明了该框架在各种编辑场景中具有优异的性能和广泛的适应性。

研究方法

1. 大型语言模型(LLM)用于从用户要求中生成详细的提示。

2. 贝叶斯优化用于自动优化推理过程参数,以实现高精度图像编辑。

3. 动态提示优化,通过迭代优化过程不断优化提示。

4. 使用LLM进行图像评分,基于要求满足程度和改进反馈进行评分。

5. 使用Gaussian Process(GP)来近似目标函数,并使用全局优化技术来识别最佳模型参数。

实验结果

实验结果表明,BayesGenie在编辑精度和语义保留方面显著优于现有方法。在图像编辑任务中,BayesGenie能够有效地处理添加、删除和修改元素,同时保持原始图像的核心特征。

未来工作

未来工作可能包括将文本-CFG和图像-CFG模块应用于其他扩散模型,并测试该方法的泛化能力。