Rethinking Deep Clustering Paradigms: Self-Supervision Is All You Need
作者: Amal Shaheena, Nairouz Mrabahb, Riadh Ksantinia, Abdulla Alqaddoumia
发布时间: 2025-03-07
来源: arxiv
研究方向: 深度聚类
主要内容
本文针对现有深度聚类方法中存在的特征随机性、特征漂移和特征扭曲等问题,提出了一种新的深度聚类范式,该范式完全摒弃了伪监督,仅依赖两层自我监督训练。通过在实例级自我监督之后进行邻近级自我监督,实现了从实例级到邻近级自我监督的平滑过渡,从而提高了聚类性能。
主要贡献
1. 提出了一种新的深度聚类范式,通过摒弃伪监督,完全依赖自我监督训练,有效解决了特征随机性、特征漂移和特征扭曲问题。
2. 设计了R-DC模型,通过实例级和邻近级自我监督,实现了从实例级到邻近级自我监督的平滑过渡,提高了聚类性能。
3. 在六个数据集上进行了实验,结果表明R-DC在聚类准确性和处理几何畸变方面均优于现有方法。
研究方法
1. 实例级自我监督:使用对抗性约束插值和数据增强技术对自编码器进行预训练。
2. 邻近级自我监督:通过双过滤机制选择核心点和这些核心点的最可靠邻居,然后计算这些可靠邻居的潜在空间中心点,以实现邻近级自我监督。
实验结果
在六个数据集上进行的实验表明,R-DC在聚类准确性和处理几何畸变方面均优于现有方法。与DynAE相比,R-DC在所有数据集上都取得了显著的性能提升。
未来工作
探索其他自我监督技术,用于邻近级自我监督策略。将R-DC扩展到图结构数据,通过集成过滤机制来适应图的结构。