PathOrchestra: A Comprehensive Foundation Model for Computational Pathology with Over 100 Diverse Clinical-Grade Tasks
作者: Fang Yan, Jianfeng Wu, Jiawen Li, Wei Wang, Jiaxuan Lu, Wen Chen, Zizhao Gao, Jianan Li, Hong Yan, Jiabo Ma, Minda Chen, Yang Lu, Qing Chen, Yizhi Wang, Xitong Ling, Xuenian Wang, Zihan Wang, Qiang Huang, Shengyi Hua, Mianxin Liu, Lei Ma, Tian Shen, Xiaofan Zhang, Yonghong He, Hao Chen, Shaoting Zhang, Zhe Wang
发布时间: 2025-04-02
来源: arxiv
研究方向: 计算病理学与人工智能
主要内容
PathOrchestra 是一种基于自监督学习的病理学基础模型,用于处理高分辨率病理图像。该模型在包含 300K 病理切片的 20 种不同组织和器官类型的数据集上进行训练,并在 112 个临床任务上进行了严格评估。
主要贡献
1. PathOrchestra 在 112 个临床任务上取得了卓越的性能,包括数字切片预处理、泛癌分类、病变识别、多癌亚型分类、生物标志物评估、基因表达预测和结构化报告生成。
2. 该模型在 27,755 个全切片图像 (WSIs) 和 9,415,729 个感兴趣区域 (ROI) 图像上表现出色,在 47 个任务中实现了超过 0.950 的准确率,包括跨多种器官的泛癌分类、淋巴瘤亚型诊断和膀胱癌筛查。
3. PathOrchestra 是第一个为高发病率结直肠癌和诊断复杂的淋巴瘤生成结构化报告的模型,这些领域很少被基础模型解决,但具有巨大的临床潜力。
研究方法
1. 自监督学习
2. DINOv2 架构
3. 多尺度、多视图数据增强技术
4. Exponential Moving Average (EMA) 机制
5. 对比学习框架
6. 教师-学生网络结构
7. DINO 和 iBOT 头部
8. 多任务学习
9. 弱监督学习
10. 线性探测
实验结果
PathOrchestra 在各种临床任务中表现出色,包括病理图像预处理和质量控制、泛癌分类、病变识别和分析、多癌亚型分类、生物标志物评估、基因表达预测和结构化报告生成。在许多任务中,该模型的准确率超过了 0.950,证明了其在计算病理学领域的潜力。
未来工作
未来工作将包括:进一步优化模型以处理炎症条件和区分肿瘤和反应性过程;解决训练数据在不同组织类型和疾病类别之间的不平衡问题;提高模型的可解释性;开发用户友好的界面;优化模型以进行 WSIs 级别分析;探索多模态方法,例如整合基因组学、蛋白质组学和放射学数据。