Sherlock: Towards Multi-scene Video Abnormal Event Extraction and Localization via a Global-local Spatial-sensitive LLM

作者: Junxiao Ma, Jingjing Wang, Jiamin Luo, Peiying Yu, Guodong Zhou

发布时间: 2025-02-27

来源: arxiv

研究方向: 视频理解与异常检测

主要内容

本文提出了一种名为Sherlock的多场景视频异常事件提取和定位方法,旨在从视频中提取异常事件四元组(主体、事件类型、对象、场景)并定位这些事件。Sherlock模型通过全局-局部空间敏感的大语言模型(LLM)设计,包括全局-局部空间增强混合专家(MoE)模块和空间不平衡调节器(SIR),以解决全局-局部空间建模和平衡的挑战。

主要贡献

1. 提出了一个新的多场景视频异常事件提取和定位(M-VAE)任务。

2. 设计了Sherlock模型,该模型通过全局-局部空间增强MoE模块和空间不平衡调节器来处理全局-局部空间建模和平衡的挑战。

3. 构建了一个M-VAE指令数据集,以更好地评估模型的有效性。

4. 在M-VAE指令数据集上进行了广泛的实验,证明了Sherlock在异常事件提取和定位方面的优越性。

研究方法

1. 全局-局部空间增强MoE(GSM)模块:包括四个空间专家(动作、对象关系和背景)和一个专家门控,以提取和平衡全局和局部空间信息。

2. 空间不平衡调节器(SIR):包括一个门控空间平衡损失(GSB),以进一步平衡全局和局部专家。

3. 训练策略:两阶段训练过程,包括空间理解的前置微调和M-VAE任务的指令调整。

实验结果

Sherlock在M-VAE指令数据集上优于其他高级视频LLM,证明了其在异常事件提取和定位方面的优越性。实验结果表明,Sherlock在提取事件四元组和定位异常事件方面均表现出优异的性能。

未来工作

考虑事件之间的关系,丰富任务以包含事件推理,以提高提取性能。提高模型的可解释性,为每个异常事件提供解释。