The Built-In Robustness of Decentralized Federated Averaging to Bad Data
作者: Samuele Sabella, Chiara Boldrini, Lorenzo Valerio, Andrea Passarella, Marco Conti
发布时间: 2025-02-27
来源: arxiv
研究方向: 分布式联邦学习
主要内容
本文研究了分布式联邦学习(DFL)在存在低质量数据时的鲁棒性,并与联邦学习(FL)和集中式学习进行了比较。通过模拟包含低质量样本的节点,分析了不同数据分布和不同网络拓扑结构下的学习性能。
主要贡献
1. 发现平均化的分布式联邦学习对局部低质量数据具有显著的鲁棒性。
2. 揭示了数据分布对鲁棒性的影响,即当低质量数据分散在多个节点时,性能下降更严重。
3. 比较了DFL和FL在处理数据污染方面的长期鲁棒性,发现FL表现出更强的鲁棒性。
4. 提出了设计策略,以增强节点之间的协作,并减轻训练未经验证数据源的风险。
研究方法
1. 使用巴拉克西-阿尔伯特(BA)图作为通信网络模型。
2. 通过在预训练的生成对抗网络(GAN)的潜在空间中进行插值来引入控制的数据污染。
3. 比较了平衡和不平衡的数据污染分布。
4. 评估了不同污染水平下的性能。
5. 使用了MNIST数据集进行图像分类任务。
实验结果
实验结果表明,低质量数据主要影响目标类和附带类,而对其他类的影响很小。当低质量数据分散在多个节点时,性能下降更严重。在不平衡的数据分布下,DFL可以优于集中式学习。FL比DFL表现出更强的长期鲁棒性。
未来工作
探索除简单平均之外的替代聚合策略,将分析扩展到不同的网络拓扑结构,并评估更多的数据集。研究如何减轻训练未经验证数据源的风险,例如从不受控制的互联网环境中抓取的数据。