Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions

作者: Thinesh Thiyakesan Ponbagavathi, Alina Roitberg

发布时间: 2025-04-02

来源: arxiv

研究方向: 视频动作识别

主要内容

该研究针对几乎对称动作的识别问题,即视觉上相似但执行顺序相反的动作(例如,拿起与放置物体)。现有的图像到视频探测机制,如DinoV2和CLIP,虽然利用注意力机制进行时间建模,但本质上是对称不变的,导致无论帧顺序如何,预测都相同。为了解决这个问题,研究人员提出了Self-attentive Temporal Embedding Probing (STEP),这是一种简单而有效的方法,旨在在参数高效的图像到视频传输中强制执行时间敏感性。

主要贡献

1. 分析了探测和PEFT方法在图像到视频迁移中的局限性,表明注意力探测本质上对帧排列不变,而PEFT方法在小型、特定领域的数据集中表现不佳。

2. 引入并基准测试了几乎对称动作的概念——具有相似帧内容但相反时间顺序的动作,并在三个数据集中手动识别这些动作。

3. 提出了STEP——一种简单而有效的自注意力探测修改,它通过引入可学习的帧级时间嵌入、全局CLS令牌和简化注意力块来更好地建模时间顺序。

4. 在IKEA-ASM和Drive&Act上实现了最先进的成果,在几乎对称动作和SSv2的低数据设置中超越了PEFT方法,证明了其数据效率。

研究方法

1. 自注意力机制

2. 时间嵌入

3. 全局CLS令牌

4. 简化注意力块

5. 帧级时间嵌入

6. 平均池化

实验结果

STEP在四个活动识别基准测试中比现有图像到视频探测机制提高了3-15%,仅使用了1/3的可学习参数。在两个数据集上,它超越了所有已发布的方法,包括完全微调的模型。STEP在识别几乎对称动作方面具有明显优势,比其他探测机制提高了9-19%,比参数更重的PEFT迁移方法提高了5-15%。在IKEA-ASM和Drive&Act上,STEP实现了最先进的成果,分别提高了13.5%和14.86%的识别率。在NTU120上,STEP在对称动作上优于PEFT,同时保持了高效率。此外,在SSv2的低数据设置中,STEP优于PEFT方法,突出了其数据效率,而PEFT方法由于依赖于大量训练数据而表现不佳。

未来工作

未来工作可以集中在在STEP中引入轻量级的空间自适应,以解决在视觉和运动提示占主导地位的数据集上的性能问题。此外,可以探索将STEP应用于其他视频理解任务,如视频分割和视频异常检测。