Simple Self Organizing Map with Visual Transformer
作者: Alan Luo, Kaiwen Yuan
发布时间: 2025-03-07
来源: arxiv
研究方向: 视觉Transformer(ViT)与自组织映射(SOM)的结合研究
主要内容
本文研究了如何将视觉Transformer(ViT)与自组织映射(SOM)相结合,以解决ViT在小型数据集上的性能不足和SOM的特征抽象能力不足的问题。
主要贡献
1. 提出了一种名为ViT-SOM的新框架,该框架结合了ViT和SOM的优点,提高了在无监督和监督任务上的性能。
2. 通过在ViT中引入SOM层,ViT-SOM能够将SOM的拓扑约束应用于ViT嵌入,同时利用ViT在处理高维空间中的特征提取能力。
3. 在多个数据集上进行了实验,结果表明ViT-SOM在无监督和监督任务上都优于基线模型和最先进的模型。
研究方法
1. 引入SOM层作为ViT的嵌入层,以进行拓扑约束。
2. 使用余弦相似度代替传统的欧几里得距离或曼哈顿距离,以解决尺度方差问题。
3. 采用批量兼容框架,提高训练效率。
4. 使用AdamW优化器进行训练,并应用余弦退火来调整学习率。
实验结果
在MNIST、Fashion-MNIST、USPS、CIFAR-10、CIFAR-100、Flowers17和SVHN等数据集上进行了实验。结果表明,ViT-SOM在无监督和监督任务上都取得了显著的性能提升。在无监督学习任务中,ViT-SOM的纯度得分比SOM-VAE和DESOM等模型更高,同时使用了更少的可学习参数。在监督学习任务中,ViT-SOM在所有数据集上都达到了最先进的准确率,并且效率高于传统的CNN模型。
未来工作
探索自适应网格拓扑结构,以改善SOM在处理边界区域时的性能。