Robust Polyp Detection and Diagnosis through Compositional Prompt-Guided Diffusion Models

作者: Jia Yu, Yan Zhu, Peiyao Fu, Tianyi Chen, Junbo Huang, Quanlin Li, Pinghong Zhou, Zhihua Wang, Fei Wu, Shuo Wang, Xian Yang

发布时间: 2025-02-27

来源: arxiv

研究方向: 医学图像生成与结直肠癌息肉检测

主要内容

本文提出了一种基于扩散模型(Diffusion Models)的渐进频谱扩散模型(Progressive Spectrum Diffusion Model, PSDM),通过组合提示(compositional prompts)生成多样化的息肉图像,以增强结直肠癌(CRC)息肉的检测、分类和分割任务。该模型通过整合分割掩码、边界框和结肠镜检查报告等多模态临床注释,生成具有临床意义的合成图像,显著提高了模型在跨域(out-of-distribution, OOD)数据上的泛化能力。

主要贡献

1. 提出了一个渐进频谱扩散模型(PSDM),通过组合提示生成多样化的息肉图像,增强模型的泛化能力。

2. 开发了一种新的方法,将多模态临床注释(如分割掩码、边界框和文本描述)整合为组合提示,用于扩散模型的图像生成。

3. 通过PSDM生成的合成数据显著提升了息肉检测、分类和分割任务的性能,特别是在处理OOD数据时表现出更强的鲁棒性。

4. 提供了一个由结直肠内镜专家标注的文本注释数据集,补充了现有的公开数据集,丰富了结直肠癌研究的数据资源。

研究方法

1. 渐进频谱扩散模型(PSDM):通过组合提示生成息肉图像,逐步从低频结构到高频细节进行图像生成。

2. 组合提示生成:将分割掩码、边界框和文本描述等多模态注释整合为组合提示,分为粗粒度(coarse)和细粒度(fine)提示,分别捕捉全局结构和细节特征。

3. 扩散模型引导过程:在扩散模型的去噪过程中,逐步引入组合提示,确保生成的图像与临床注释一致。

4. 持续学习策略:通过提示回放机制(prompt replay mechanism)避免灾难性遗忘,确保模型能够从新数据中学习的同时保留对旧数据的生成能力。

实验结果

实验结果表明,PSDM在多个公开数据集(如PolypGen、CVC-ClinicDB等)上显著提升了息肉分割、分类和检测任务的性能。特别是在PolypGen数据集上,PSDM将F1分数提高了2.12%,平均精度(mAP)提高了3.09%。此外,PSDM在复杂数据集(如ETIS和PolypGen的dataC4、dataC5子集)上表现出更强的泛化能力,能够更好地处理形状不规则或较小的息肉。

未来工作

未来的研究应关注如何进一步评估合成图像的临床相关性,开发更严格的定量评估指标(如保真度指标)来验证生成图像的质量。此外,如何将合成数据整合到临床工作流程中,确保其在决策中的可靠性和实用性,也是一个重要的研究方向。