Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition

作者: Xinyu Xi, Hua Yang, Shentai Zhang, Yijie Liu, Sijin Sun, Xiuju Fu

发布时间: 2025-03-11

来源: arxiv

研究方向: 海洋多场景识别与智能海洋机器人

主要内容

本文提出了一种用于海洋多场景识别的多模态人工智能框架,该框架整合了图像数据、文本描述和由多模态大型语言模型(MLLM)生成的分类向量,以提供更丰富的语义理解并提高识别精度。

主要贡献

1. 提出了一种新的多模态人工智能框架,用于海洋多场景识别。

2. 使用多模态融合机制,提高了模型在复杂海洋环境中的鲁棒性和适应性。

3. 采用激活感知权重量化(AWQ)技术,优化了模型在资源受限平台上的部署。

4. 在实验中,该模型实现了98%的准确率,超过了之前的最先进模型3.5%。

研究方法

1. 图像特征提取:使用Swin Transformer。

2. 文本数据处理:使用BERT。

3. 分类向量处理:使用多层感知器(MLP)。

4. 多模态融合:采用注意力机制、加权集成、增强模态对齐和动态模态优先级。

5. 模型轻量化:采用激活感知权重量化(AWQ)。

实验结果

实验结果表明,该模型在海洋场景识别任务中实现了98%的准确率,超过了之前的最先进模型3.5%。经过AWQ量化后,模型大小降至68.75MB,准确率略有下降(0.5%),但计算开销显著降低。

未来工作

未来工作将集中于扩大数据集,以包含更广泛的海洋场景,并验证模型在动态和不可预测的海洋环境中的性能。此外,将探索半监督学习和自适应处理策略,以增强模型的泛化能力并减少对标记数据的依赖。