Simple Self Organizing Map with Visual Transformer

作者: Alan Luo, Kaiwen Yuan

发布时间: 2025-03-07

来源: arxiv

研究方向: 视觉Transformer（ViT）与自组织映射（SOM）的结合研究

主要内容

本文研究了如何将视觉Transformer（ViT）与自组织映射（SOM）相结合，以解决ViT在小型数据集上的性能不足和SOM的特征抽象能力不足的问题。

主要贡献

1. 提出了一种名为ViT-SOM的新框架，该框架结合了ViT和SOM的优点，提高了在无监督和监督任务上的性能。

2. 通过在ViT中引入SOM层，ViT-SOM能够将SOM的拓扑约束应用于ViT嵌入，同时利用ViT在处理高维空间中的特征提取能力。

3. 在多个数据集上进行了实验，结果表明ViT-SOM在无监督和监督任务上都优于基线模型和最先进的模型。

研究方法

1. 引入SOM层作为ViT的嵌入层，以进行拓扑约束。

2. 使用余弦相似度代替传统的欧几里得距离或曼哈顿距离，以解决尺度方差问题。

3. 采用批量兼容框架，提高训练效率。

4. 使用AdamW优化器进行训练，并应用余弦退火来调整学习率。

实验结果

在MNIST、Fashion-MNIST、USPS、CIFAR-10、CIFAR-100、Flowers17和SVHN等数据集上进行了实验。结果表明，ViT-SOM在无监督和监督任务上都取得了显著的性能提升。在无监督学习任务中，ViT-SOM的纯度得分比SOM-VAE和DESOM等模型更高，同时使用了更少的可学习参数。在监督学习任务中，ViT-SOM在所有数据集上都达到了最先进的准确率，并且效率高于传统的CNN模型。

未来工作

探索自适应网格拓扑结构，以改善SOM在处理边界区域时的性能。