EgoNormia: Benchmarking Physical Social Norm Understanding

作者: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang

发布时间: 2025-03-03

来源: arxiv

研究方向: 视觉语言模型（VLM）的物理社会规范理解

主要内容

EGONORMIA是一个旨在评估VLM对物理社会规范（PSN）理解能力的基准和数据集。该研究通过设计一个包含多种社会和物理背景的互动视频片段的数据库，并使用多选题格式来评估模型对规范行为的理解。研究旨在解决VLM在理解物理世界中的规范时存在的挑战，并探索如何通过EGONORMIA来增强VLM的规范推理能力。

主要贡献

1. 提出了EGONORMIA，一个用于评估VLM对物理社会规范理解能力的基准和数据集。

2. 展示了当前最先进的VLM在EGONORMIA上的表现，并发现了它们在规范推理方面的局限性。

3. 通过使用检索增强的生成方法，证明了EGONORMIA在增强VLM规范推理能力方面的有效性。

4. 对EGONORMIA中的不同规范类别和活动类别进行了详细分析，揭示了VLM在规范推理中的挑战。

5. 提出了NORMTHINKER，一个基于检索的生成方法，用于指导VLM在特定情境下做出基于规范的决策。

研究方法

1. 使用Ego4D数据集中的视频片段来构建EGONORMIA数据集。

2. 通过多选题格式评估VLM对规范行为的理解。

3. 使用检索增强的生成方法来增强VLM的规范推理能力。

4. 对EGONORMIA中的不同规范类别和活动类别进行了详细分析。

5. 通过NORMTHINKER方法，使用检索来提供上下文中基于规范的示例，以指导VLM的决策。

实验结果

EGONORMIA上的实验结果表明，尽管SOTA模型在视觉识别和抽象推理方面表现出色，但在物理社会规范理解方面仍然劣于人类。通过使用检索增强的生成方法，可以显著提高VLM在EGONORMIA上的表现。

未来工作

未来工作可以包括扩大EGONORMIA数据集的多样性，包括更广泛的视频来源，如外视角视频。此外，可以探索将音频信息纳入评估方案，以及开发更复杂的检索方法，以提高VLM的规范推理能力。