PolypSegTrack: Unified Foundation Model for Colonoscopy Video Analysis

作者: Anwesa Choudhuri, Zhongpai Gao, Meng Zheng, Benjamin Planche, Terrence Chen, Ziyan Wu

发布时间: 2025-04-02

来源: arxiv

研究方向: 医学影像分析,结肠镜视频分析,深度学习

主要内容

提出了一种名为PolypSegTrack的新型基础模型,用于结肠镜视频中息肉的检测、分割、分类和无监督跟踪。

主要贡献

1. 提出了一个名为PolypSegTrack的新型基础模型,用于结肠镜视频中息肉的检测、分割、分类和无监督跟踪。

2. 设计了一种新的条件掩码损失,使模型能够灵活地学习并适应不同的注释类型。

3. 开发了一种无监督且非启发式的跟踪方法,使用对象查询为息肉分配跟踪标识。

4. 在多个息肉数据集上进行了广泛的实验,证明了模型在息肉检测、分割、分类和跟踪方面的优越性。

研究方法

1. 预训练基础模型(如DINOv2)以提取图像特征。

2. 使用Transformer编码器-解码器生成对象查询。

3. 预测头部生成边界框、分割掩码和类别概率。

4. 条件掩码损失用于联合训练检测和分割任务。

5. 无监督跟踪通过对象查询空间中的匹配实现。

实验结果

在多个息肉数据集上进行的实验表明,PolypSegTrack在息肉检测、分割、分类和跟踪方面均优于现有方法。模型在ETIS、CVC-ColonDB、CVC-300、Kvasir-SEG、CVCClinic-DB、KUMC和REAL-Colon数据集上取得了最先进的性能。

未来工作

进一步研究如何将PolypSegTrack应用于其他医学影像分析任务,以及如何改进模型以提高其在不同场景下的鲁棒性。