Aligning Text to Image in Diffusion Models is Easier Than You Think
作者: Jaa-Yeon Lee, Byunghee Cha, Jeongsol Kim, Jong Chul Ye
发布时间: 2025-03-12
来源: arxiv
研究方向: 多模态生成模型,特别是文本到图像生成模型的研究
主要内容
该论文提出了SoftREPA(Soft Representation Alignment)方法,旨在通过轻量级的微调策略和软文本标记来改善文本到图像生成模型中的文本图像对齐问题。
主要贡献
1. 提出了SoftREPA方法,通过使用软文本标记进行对比学习,在不增加超过1M可训练参数的情况下,显著提高了文本图像对齐。
2. SoftREPA方法简单且灵活,可以与任何预训练的文本到图像生成模型结合使用,以改善图像生成和编辑等任务。
3. 理论分析表明,SoftREPA方法明确增加了文本和图像之间的互信息,从而提高了多模态表示中的语义一致性。
研究方法
1. 对比学习框架,用于最大化语义相关文本图像对的相似性,同时将不相关的对推向共享表示空间。
2. 软文本标记的使用,允许模型动态调整其文本表示,从而在无需完全微调的情况下改进与生成图像的对齐。
3. 通过引入软文本标记来修改文本到图像扩散模型中的去噪函数,从而实现更好的文本图像对齐。
实验结果
实验结果表明,SoftREPA方法在文本到图像生成和文本引导的图像编辑任务中,与基线方法相比,在图像质量、文本对齐和感知图像质量评估方面都取得了显著的提升。
未来工作
未来可以进一步探索SoftREPA方法在其他类型的生成模型中的应用,例如视频到文本生成和音频到图像生成等,并探索如何将SoftREPA与其他先进的生成模型技术相结合。