Sherlock: Towards Multi-scene Video Abnormal Event Extraction and Localization via a Global-local Spatial-sensitive LLM
作者: Junxiao Ma, Jingjing Wang, Jiamin Luo, Peiying Yu, Guodong Zhou
发布时间: 2025-02-27
来源: arxiv
研究方向: 视频理解与异常检测
主要内容
本文提出了一种名为Sherlock的多场景视频异常事件提取和定位方法,旨在从视频中提取异常事件四元组(主体、事件类型、对象、场景)并定位这些事件。Sherlock模型通过全局-局部空间敏感的大语言模型(LLM)设计,包括全局-局部空间增强混合专家(MoE)模块和空间不平衡调节器(SIR),以解决全局-局部空间建模和平衡的挑战。
主要贡献
1. 提出了一个新的多场景视频异常事件提取和定位(M-VAE)任务。
2. 设计了Sherlock模型,该模型通过全局-局部空间增强MoE模块和空间不平衡调节器来处理全局-局部空间建模和平衡的挑战。
3. 构建了一个M-VAE指令数据集,以更好地评估模型的有效性。
4. 在M-VAE指令数据集上进行了广泛的实验,证明了Sherlock在异常事件提取和定位方面的优越性。
研究方法
1. 全局-局部空间增强MoE(GSM)模块:包括四个空间专家(动作、对象关系和背景)和一个专家门控,以提取和平衡全局和局部空间信息。
2. 空间不平衡调节器(SIR):包括一个门控空间平衡损失(GSB),以进一步平衡全局和局部专家。
3. 训练策略:两阶段训练过程,包括空间理解的前置微调和M-VAE任务的指令调整。
实验结果
Sherlock在M-VAE指令数据集上优于其他高级视频LLM,证明了其在异常事件提取和定位方面的优越性。实验结果表明,Sherlock在提取事件四元组和定位异常事件方面均表现出优异的性能。
未来工作
考虑事件之间的关系,丰富任务以包含事件推理,以提高提取性能。提高模型的可解释性,为每个异常事件提供解释。