EgoNormia: Benchmarking Physical Social Norm Understanding
作者: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang
研究方向: 视觉语言模型(VLM)的物理社会规范理解
EGONORMIA是一个旨在评估VLM对物理社会规范(PSN)理解能力的基准和数据集。该研究通过设计一个包含多种社会和物理背景的互动视频片段的数据库,并使用多选题格式来评估模型对规范行为的理解。研究旨在解决VLM在理解物理世界中的规范时存在的挑战,并探索如何通过EGONORMIA来增强VLM的规范推理能力。