Robust Multimodal Learning for Ophthalmic Disease Grading via Disentangled Representation

作者: Xinkun Wang, Yifang Wang, Senwei Liang, Feilong Tang, Chengzhi Liu, Ming Hu, Chao Hu, Junjun He, Zongyuan Ge, Imran Razzak

发布时间: 2025-03-10

来源: arxiv

研究方向: 眼科学疾病分级的多模态学习与诊断

主要内容

该研究针对眼科学疾病分级中多模态数据缺失的问题,提出了一种名为EDRL(Essence-Point and Disentangle Representation Learning)的框架,旨在提高诊断的准确性和鲁棒性。

主要贡献

1. 提出EPRL框架,通过建模原型来选择判别信息,有效减少模态内部冗余。

2. 引入DiLR模块,将多模态特征解耦为独立的模态独特和模态公共表示。

3. 在三个眼科学多模态数据集上进行的实验表明,EDRL策略的有效性。

研究方法

1. Essence-Point Representation Learning (EPRL):选择具有判别性的特征,以增强疾病分级性能。

2. Disentangled Representation Learning (DiLR):将多模态数据分离为模态公共和模态独特表示,减少特征纠缠,提高鲁棒性和可解释性。

3. Self-distillation机制:使用完整的管道作为参考,增强缺失信息的重建,提高鲁棒性。

实验结果

在包含完整模态、缺失模态和噪声模态的三种设置下,与现有方法相比,EDRL框架在Harvard-30k数据集上实现了最先进的性能。此外,消融实验表明EPRL和DiLR模块的有效性。

未来工作

进一步探索如何将EDRL框架应用于其他医疗影像领域,以及如何进一步提高模型的可解释性和泛化能力。