Deep Cut-informed Graph Embedding and Clustering

作者: Zhiyuan Ning, Zaitian Wang, Ran Zhang, Ping Xu, Kunpeng Liu, Pengyang Wang, Chong Chen, Pengfei Wang, Yuanchun Zhou, Erik Cambria

发布时间: 2025-03-11

来源: arxiv

研究方向: 图嵌入与聚类

主要内容

该论文提出了一种名为DCGC的深度图嵌入和聚类框架,旨在解决现有基于图神经网络(GNN)的深度图聚类算法中存在的表示崩溃问题。DCGC通过从图切割的角度出发,提出了一种非GNN的图聚类范式,有效融合了图结构和节点属性信息,并利用最优传输理论进行自监督图聚类。

主要贡献

1. 分析了现有GNN-based深度图聚类算法中存在的表示崩溃问题,并将其归因于GNN模型的归纳偏差和聚类引导损失函数。

2. 提出了一种名为DCGC的深度图嵌入和聚类框架,包括切割信息图编码和基于最优传输的自监督图聚类两个模块。

3. 通过最小化原始图和属性图的联合规范化切割,实现了图结构和节点属性信息的融合。

4. 利用最优传输理论进行自监督图聚类,平衡了“靠近预学习聚类中心”的引导,避免了退化解。

5. 在六个具有挑战性的真实世界图数据集上进行了实验,结果表明该方法在性能上优于现有深度图聚类模型。

研究方法

1. 图切割信息编码:通过最小化原始图和属性图的联合规范化切割,融合图结构和节点属性信息。

2. 基于最优传输的自监督图聚类:利用最优传输理论进行自监督图聚类,平衡了“靠近预学习聚类中心”的引导。

3. K-means聚类:用于初始化聚类中心和计算聚类大小。

4. Kullback-Leibler散度损失:用于优化聚类分配。

5. Sinkhorn距离:用于快速优化最优传输问题。

实验结果

在六个具有挑战性的真实世界图数据集上进行了实验,结果表明DCGC在性能上优于现有深度图聚类模型。此外,消融实验也表明DCGC的每个组件都是不可或缺的。

未来工作

未来工作可以包括:研究更可扩展的规范化切割近似方法,以处理更大的数据集;探索半监督技术,以在有限标签的情况下提高性能;处理动态图;以及开发新的节点归纳聚类方法。