COSMO: Combination of Selective Memorization for Low-cost Vision-and-Language Navigation

作者: Siqi Zhang, Yanyuan Qiao, Qunbo Wang, Zike Yan, Qi Wu, Zhihua Wei, Jing Liu

发布时间: 2025-04-03

来源: arxiv

研究方向: 视觉与语言导航(Vision-and-Language Navigation, VLN)

主要内容

本文提出了一种名为COSMO的视觉与语言导航模型,该模型通过结合选择性记忆机制和Transformer架构,旨在实现低成本且高效的视觉与语言导航。

主要贡献

1. 提出了选择性记忆(Selective Memorization)的概念,结合了选择性状态空间模型(Selective State Space Model)和Transformer模块。

2. 设计了两款针对视觉与语言导航任务定制的选择性状态空间模块:圆周选择性扫描(Round Selective Scan, RSS)和跨模态选择性状态空间模块(Cross-modal Selective State Space Module, CS3)。

3. 在REVERIE、R2R和R2R-CE三个主流视觉与语言导航基准数据集上进行了实验,证明了COSMO在导航性能和计算成本方面的优势。

研究方法

1. 选择性状态空间模型(Selective State Space Model)

2. Transformer架构

3. 圆周选择性扫描(Round Selective Scan, RSS)

4. 跨模态选择性状态空间模块(Cross-modal Selective State Space Module, CS3)

5. 混合架构

实验结果

在REVERIE、R2R和R2R-CE三个基准数据集上,COSMO在导航性能和计算成本方面均优于基线模型DUET。在REVERIE验证未见集上,COSMO在SR和SPL方面分别比DUET提高了3.83%和2.2%;在R2R-CE测试集上,COSMO在SR和SPL方面分别比DUET提高了5%和4%。同时,COSMO的总参数量仅为DUET的15.5%,计算成本降低了9.3%。

未来工作

未来可以将COSMO应用于更广泛的视觉与语言导航任务,例如动态环境中的导航、多模态信息融合等。此外,还可以探索将选择性记忆机制应用于其他领域,例如自然语言处理、计算机视觉等。