Rethinking Deep Clustering Paradigms: Self-Supervision Is All You Need

作者: Amal Shaheena, Nairouz Mrabahb, Riadh Ksantinia, Abdulla Alqaddoumia

发布时间: 2025-03-07

来源: arxiv

研究方向: 深度聚类

主要内容

本文针对现有深度聚类方法中存在的特征随机性、特征漂移和特征扭曲等问题，提出了一种新的深度聚类范式，该范式完全摒弃了伪监督，仅依赖两层自我监督训练。通过在实例级自我监督之后进行邻近级自我监督，实现了从实例级到邻近级自我监督的平滑过渡，从而提高了聚类性能。

1. 提出了一种新的深度聚类范式，通过摒弃伪监督，完全依赖自我监督训练，有效解决了特征随机性、特征漂移和特征扭曲问题。

2. 设计了R-DC模型，通过实例级和邻近级自我监督，实现了从实例级到邻近级自我监督的平滑过渡，提高了聚类性能。

3. 在六个数据集上进行了实验，结果表明R-DC在聚类准确性和处理几何畸变方面均优于现有方法。

1. 实例级自我监督：使用对抗性约束插值和数据增强技术对自编码器进行预训练。

2. 邻近级自我监督：通过双过滤机制选择核心点和这些核心点的最可靠邻居，然后计算这些可靠邻居的潜在空间中心点，以实现邻近级自我监督。

在六个数据集上进行的实验表明，R-DC在聚类准确性和处理几何畸变方面均优于现有方法。与DynAE相比，R-DC在所有数据集上都取得了显著的性能提升。

探索其他自我监督技术，用于邻近级自我监督策略。将R-DC扩展到图结构数据，通过集成过滤机制来适应图的结构。