Structure-prior Informed Diffusion Model for Graph Source Localization with Limited Data

作者: Hongyi Chen, Jingtao Ding, Xiaojun Liang, Yong Li, Xiao-Ping Zhang

发布时间: 2025-02-27

来源: arxiv

研究方向: 图信息传播中的源定位问题

主要内容

本文提出了一种基于结构先验的扩散模型(SIDSL),用于在有限数据情况下进行图信息传播中的源定位。SIDSL通过结合图标签传播和GNN参数化的标签传播模块(GNN-LP),解决了未知传播模式、复杂拓扑-传播关系以及源节点与非源节点之间的类别不平衡问题。该模型利用结构先验信息,通过扩散模型进行去噪,从而在有限数据情况下实现鲁棒的源定位。

主要贡献

1. 提出了一种基于结构先验的扩散框架,能够在有限数据情况下有效应对源定位问题,增强对未知传播模式的泛化能力。

2. 引入了一系列创新技术,包括传播增强的条件去噪器、GNN-LP模块和基于结构先验的偏置去噪过程,协同处理结构异质性和类别不平衡问题。

3. 在四个真实世界数据集上评估了SIDSL的性能,证明了其在源识别任务中的优越性,F1分数比现有方法提高了7.5-13.3%。通过使用合成数据进行预训练,SIDSL在仅使用10%训练数据的情况下仍能保持鲁棒性能,展示了其在真实世界应用中的强大泛化能力。

研究方法

1. 扩散模型(Diffusion Model)用于捕捉源定位问题中的不确定性,通过逐步添加高斯噪声并学习去噪过程来预测源节点分布。

2. 图标签传播(Label Propagation)用于生成结构先验信息,识别潜在的源节点。

3. GNN参数化的标签传播模块(GNN-LP)结合了标签传播和GNN,有效提取拓扑特征并学习拓扑与传播模式之间的关系。

4. 结构先验偏置去噪过程(Structure-prior Biased Denoising)通过从结构估计初始化去噪过程,防止模型在有限数据情况下退化。

实验结果

在四个真实世界数据集(Digg、Twitter、Android、Christianity)上的实验结果表明,SIDSL在F1分数上比现有方法提高了7.5-13.3%。特别是在使用合成数据进行预训练后,SIDSL在仅使用10%训练数据的情况下,性能仍然优于基线方法,展示了其在少样本和零样本学习场景中的显著优势。此外,SIDSL在合成数据上的预训练也显著提高了其在真实世界数据上的表现,验证了其从合成到真实数据的有效迁移能力。

未来工作

未来的研究方向包括通过层次分解方法提高模型效率,以处理更大规模的网络,同时保持定位精度。此外,进一步研究如何在不依赖精确软标签的情况下提升模型的适应性,以及如何加速扩散模型的采样速度,以应对实时定位的需求。