Weakly Supervised Multiple Instance Learning for Whale Call Detection and Localization in Long-Duration Passive Acoustic Monitoring

作者: Ragib Amin Nihal, Benjamin Yen, Runwu Shi, Kazuhiro Nakadai

发布时间: 2025-03-03

来源: arxiv

研究方向: 海洋生态监测与生物声学

主要内容

本研究探讨了使用多重实例学习(MIL)在长时程水下声学记录中进行分析的有效性,同时减少对详细时间标注的依赖。提出了一种名为DSMIL-LocNet的模型,用于鲸鱼叫声检测和定位,该模型仅使用袋级别的标签。

主要贡献

1. 提出了一个名为DSMIL-LocNet的新架构,用于仅使用袋级别标签进行鲸鱼叫声的时空定位。

2. DSMIL-LocNet可以处理长达2-30分钟的音频片段,同时利用频谱和时域特征,并基于注意力机制进行实例选择。

3. DSMIL-LocNet在处理长时程录音方面表现出色,能够在较长的上下文中提高分类准确性,同时在中等实例长度下确保定位精度。

4. DSMIL-LocNet的实验结果表明,其在鲸鱼叫声检测和定位任务上优于现有的基准模型。

研究方法

1. 多重实例学习(MIL)

2. 频谱和时域特征提取

3. 注意力机制

4. 深度学习

5. 卷积神经网络(CNN)

6. 多层感知器(MLP)

7. 双流架构

8. 损失函数优化

实验结果

DSMIL-LocNet在鲸鱼叫声检测和定位任务上取得了显著的性能提升,其F1分数和定位精度均优于现有的基准模型。实验结果表明,DSMIL-LocNet在处理长时程录音时,能够有效地提高分类准确性和定位精度。

未来工作

未来的工作将着重于处理复杂海洋声景中的多样声学事件,可能通过专门的检测器或多类别MIL方法来实现。