Sherlock: Towards Multi-scene Video Abnormal Event Extraction and Localization via a Global-local Spatial-sensitive LLM

作者: Junxiao Ma, Jingjing Wang, Jiamin Luo, Peiying Yu, Guodong Zhou

发布时间: 2025-02-27

来源: arxiv

研究方向: 视频理解与异常检测

主要内容

本文提出了一种名为Sherlock的多场景视频异常事件提取和定位方法，旨在从视频中提取异常事件四元组（主体、事件类型、对象、场景）并定位这些事件。Sherlock模型通过全局-局部空间敏感的大语言模型（LLM）设计，包括全局-局部空间增强混合专家（MoE）模块和空间不平衡调节器（SIR），以解决全局-局部空间建模和平衡的挑战。

主要贡献

1. 提出了一个新的多场景视频异常事件提取和定位（M-VAE）任务。

2. 设计了Sherlock模型，该模型通过全局-局部空间增强MoE模块和空间不平衡调节器来处理全局-局部空间建模和平衡的挑战。

3. 构建了一个M-VAE指令数据集，以更好地评估模型的有效性。

4. 在M-VAE指令数据集上进行了广泛的实验，证明了Sherlock在异常事件提取和定位方面的优越性。

研究方法

1. 全局-局部空间增强MoE（GSM）模块：包括四个空间专家（动作、对象关系和背景）和一个专家门控，以提取和平衡全局和局部空间信息。

2. 空间不平衡调节器（SIR）：包括一个门控空间平衡损失（GSB），以进一步平衡全局和局部专家。

3. 训练策略：两阶段训练过程，包括空间理解的前置微调和M-VAE任务的指令调整。

实验结果

Sherlock在M-VAE指令数据集上优于其他高级视频LLM，证明了其在异常事件提取和定位方面的优越性。实验结果表明，Sherlock在提取事件四元组和定位异常事件方面均表现出优异的性能。

未来工作

考虑事件之间的关系，丰富任务以包含事件推理，以提高提取性能。提高模型的可解释性，为每个异常事件提供解释。