Supporting the development of Machine Learning for fundamental science in a federated Cloud with the AI_INFN platform

作者: Lucio Anderlini, Matteo Barbetti, Giulio Bianchini, Diego Ciangottini, Stefano Dal Pra, Diego Michelotto, Carmelo Pellegrino, Rosa Petrini, Alessandro Pascolini, Daniele Spiga

发布时间: 2025-03-03

来源: arxiv

研究方向: 机器学习在基础科学中的应用,特别是在高能物理领域

主要内容

该论文介绍了INFN(意大利国家核物理研究所)的AI_INFN项目,旨在通过提供专门针对人工智能的云计算资源,促进机器学习技术在基础科学领域的应用。该项目构建了一个名为AI_INFN的平台,用于支持机器学习研究人员的计算需求。

主要贡献

1. 开发了一个名为AI_INFN的平台,该平台通过云原生解决方案提供AI定制计算资源。

2. 使用Kubernetes平台简化了GPU驱动的数据分析工作流程的开发和可伸缩性。

3. 引入了名为_offloading_的技术,允许用户将应用程序扩展到集群边界之外。

4. 提供了一个高度可定制的开发平台,用户可以创建和管理自己的计算环境。

5. 建立了监控和计费系统,以有效控制平台资源的使用,特别是GPU的使用。

研究方法

1. 云原生解决方案

2. Kubernetes平台

3. 虚拟化技术

4. 容器化技术

5. 分布式文件系统

6. 监控和计费系统

实验结果

论文中未提供具体的实验结果,但描述了AI_INFN平台的功能和特点,以及其在支持机器学习研究中的应用。

未来工作

AI_INFN平台将继续发展,以支持更多的计算需求,包括量子机器学习和其他类型的硬件加速器。平台还将扩展其可伸缩性和分布式计算能力,以支持更大规模的研究项目。