Rethinking Deep Clustering Paradigms: Self-Supervision Is All You Need

作者: Amal Shaheena, Nairouz Mrabahb, Riadh Ksantinia, Abdulla Alqaddoumia

发布时间: 2025-03-07

来源: arxiv

研究方向: 深度聚类

主要内容

本文针对现有深度聚类方法中存在的特征随机性、特征漂移和特征扭曲等问题,提出了一种新的深度聚类范式,该范式完全摒弃了伪监督,仅依赖两层自我监督训练。通过在实例级自我监督之后进行邻近级自我监督,实现了从实例级到邻近级自我监督的平滑过渡,从而提高了聚类性能。

主要贡献

1. 提出了一种新的深度聚类范式,通过摒弃伪监督,完全依赖自我监督训练,有效解决了特征随机性、特征漂移和特征扭曲问题。

2. 设计了R-DC模型,通过实例级和邻近级自我监督,实现了从实例级到邻近级自我监督的平滑过渡,提高了聚类性能。

3. 在六个数据集上进行了实验,结果表明R-DC在聚类准确性和处理几何畸变方面均优于现有方法。

研究方法

1. 实例级自我监督:使用对抗性约束插值和数据增强技术对自编码器进行预训练。

2. 邻近级自我监督:通过双过滤机制选择核心点和这些核心点的最可靠邻居,然后计算这些可靠邻居的潜在空间中心点,以实现邻近级自我监督。

实验结果

在六个数据集上进行的实验表明,R-DC在聚类准确性和处理几何畸变方面均优于现有方法。与DynAE相比,R-DC在所有数据集上都取得了显著的性能提升。

未来工作

探索其他自我监督技术,用于邻近级自我监督策略。将R-DC扩展到图结构数据,通过集成过滤机制来适应图的结构。