Adapting Vision Foundation Models for Real-time Ultrasound Image Segmentation

作者: Xiaoran Zhang, Eric Z. Chen, Lin Zhao, Xiao Chen, Yikang Liu, Boris Maihe, James S. Duncan, Terrence Chen, Shanhui Sun

发布时间: 2025-04-02

来源: arxiv

研究方向: 医学图像处理,超声图像分割

主要内容

提出了一种新的超声图像分割方法,该方法通过调整视觉基础模型来提高分割的准确性和实时性。

主要贡献

1. 提出了一种新的方法,通过调整Hiera编码器并集成DINOv2特征来增强视觉表示,从而提高超声分割的准确性。

2. 在有限的监督下表现出强大的泛化能力,在1%和10%的数据上训练时,平均比nnUNet在心脏分割中超过20%。

3. 在CAMUS和TN3K上实现了最先进的性能,同时在其他数据集上始终优于基线。

4. 实现了约77帧每秒的实时推理速度,在单个GPU上使用TensorRT。

研究方法

1. 使用Hiera适配器进行层次化特征提取。

2. 在编码路径中交错DINOv2特征以增强视觉特征表示。

3. 使用层次化解码器处理多尺度特征以生成像素级logits。

4. 采用参数高效的微调方法来优化适应能力,同时最小化计算成本。

实验结果

在七个超声数据集上评估,该方法始终优于基线并实现了最先进的性能。在有限的数据上训练时,该方法在心脏分割中显著优于现有基线。在CAMUS和TN3K上实现了最先进的性能,同时在其他数据集上始终优于基线。实现了约77帧每秒的实时推理速度。

未来工作

未来工作将探索扩展到视频和3D成像。