HeteroPod: XPU-Accelerated Infrastructure Offloading for Commodity Cloud-Native Applications
作者: Bicheng Yang, Jingkai He, Dong Du, Yubin Xia, Haibo Chen
发布时间: 2025-04-02
来源: arxiv
研究方向: 云计算,异构计算,云原生应用
主要内容
本文提出了一种名为HeteroPod的新架构,旨在通过将基础设施服务卸载到数据处理单元(DPUs)上来提高商品云原生应用的性能和可扩展性。该架构通过引入HeteroNet网络系统,实现了跨PU(XPU)的透明、高效和资源高效的网络通信。
主要贡献
1. 提出了HeteroPod架构,通过将基础设施服务卸载到DPUs上,有效减少了主机资源竞争和操作成本。
2. 设计了HeteroNet网络系统,实现了跨PU的透明、高效和资源高效的网络通信。
3. 实现了HeteroK8s,一个基于Kubernetes的云原生系统,支持将基础设施容器卸载到DPUs上。
4. 通过实验验证了HeteroK8s在NVIDIA Bluefield-2 DPUs和CXL-based DPUs(使用真实CXL内存设备模拟)上的性能,结果表明其提供了更高的性能和更低的资源消耗。
研究方法
1. HeteroNet:包括分割网络命名空间(hetero-netns)和弹性高效的XPU网络(hetero-socket)。
2. hetero-netns:为跨PU容器提供统一的网络抽象。
3. hetero-socket:一种网络堆栈设计,同时实现内核旁路性能、内核辅助资源效率和socket API兼容性。
4. HeteroK8s:基于Kubernetes的云原生系统,支持服务器无服务器计算(HeteroK8s-FaaS)和微服务(HeteroK8s-Mesh)。
实验结果
实验结果表明,HeteroK8s可以有效地支持复杂的(未修改的)商品云原生应用(高达100万行代码),并提供高达31.9倍的更好延迟和64倍的更少资源消耗(与内核旁路设计相比),60%更好的端到端延迟,以及55%更高的可扩展性,与SOTA系统相比。
未来工作
未来工作将包括支持更细粒度的卸载(例如线程),以及探索XPU的更多政策和优势,例如能效。