Simple Self Organizing Map with Visual Transformer

作者: Alan Luo, Kaiwen Yuan

发布时间: 2025-03-07

来源: arxiv

研究方向: 视觉Transformer(ViT)与自组织映射(SOM)的结合研究

主要内容

本文研究了如何将视觉Transformer(ViT)与自组织映射(SOM)相结合,以解决ViT在小型数据集上的性能不足和SOM的特征抽象能力不足的问题。

主要贡献

1. 提出了一种名为ViT-SOM的新框架,该框架结合了ViT和SOM的优点,提高了在无监督和监督任务上的性能。

2. 通过在ViT中引入SOM层,ViT-SOM能够将SOM的拓扑约束应用于ViT嵌入,同时利用ViT在处理高维空间中的特征提取能力。

3. 在多个数据集上进行了实验,结果表明ViT-SOM在无监督和监督任务上都优于基线模型和最先进的模型。

研究方法

1. 引入SOM层作为ViT的嵌入层,以进行拓扑约束。

2. 使用余弦相似度代替传统的欧几里得距离或曼哈顿距离,以解决尺度方差问题。

3. 采用批量兼容框架,提高训练效率。

4. 使用AdamW优化器进行训练,并应用余弦退火来调整学习率。

实验结果

在MNIST、Fashion-MNIST、USPS、CIFAR-10、CIFAR-100、Flowers17和SVHN等数据集上进行了实验。结果表明,ViT-SOM在无监督和监督任务上都取得了显著的性能提升。在无监督学习任务中,ViT-SOM的纯度得分比SOM-VAE和DESOM等模型更高,同时使用了更少的可学习参数。在监督学习任务中,ViT-SOM在所有数据集上都达到了最先进的准确率,并且效率高于传统的CNN模型。

未来工作

探索自适应网格拓扑结构,以改善SOM在处理边界区域时的性能。