EgoBlind: Towards Egocentric Visual Assistance for the Blind People
作者: Junbin Xiao, Nanxin Huang, Hao Qiu, Zhulin Tao, Xun Yang, Richang Hong, Meng Wang, Angela Yao
发布时间: 2025-03-12
来源: arxiv
研究方向: 视觉辅助与视觉语言模型
主要内容
本文提出了EgoBlind,这是一个首个以盲人为对象,用于评估当代多模态大型语言模型(MLLMs)辅助能力的视觉问答(VQA)数据集。EgoBlind包含来自盲人日常生活场景的1200多段视频和4927个问题,这些问题由盲人直接提出或生成,以反映他们在各种场景下对视觉辅助的需求。
主要贡献
1. 构建了首个针对盲人视觉辅助的VQA数据集EgoBlind,用于评估和促进MLLMs在第一人称视角下的视觉辅助能力。
2. 全面分析了15个领先的MLLMs的行为,揭示了它们的局限性和改进的可能性。
3. 识别和总结了现有MLLMs在第一人称视觉辅助方面的主要局限性,并为改进提供了启发式建议。
研究方法
1. 数据收集:从社交媒体平台收集盲人内容创作者的日常生活的第一人称视角视频,并手动分割视频段。
2. 问题收集:手动提取视频中的视觉辅助相关问题,使用GPT-4o生成问题,并邀请盲人进行验证。
3. 数据验证:通过三个阶段进行数据验证,包括人工检查、志愿者审查和盲人用户评分。
4. 答案标注:邀请学生观看视频并回答问题,每个问题由三到四个标注员回答,以提高答案的可靠性和客观性。
5. 实验评估:使用GPT-4o mini评估模型在EgoBlind测试集上的表现,并使用准确性和分数作为评估指标。
实验结果
所有模型在EgoBlind上的表现都低于人类表现,最好的模型(Gemini 2.0)的准确率约为56%,远低于人类表现(87.4%)。实验结果表明,模型在辅助导航、安全警告和工具使用方面表现较差,表明在这些领域的知识有限。模型在生成客观准确的答案方面表现良好,但往往无法满足盲人对辅助的客观需求。模型在处理非存在物体的问题时表现出明显的倾向性,这表明当前MLLMs在处理非标准问题方面的局限性。
未来工作
未来工作将集中在以下方面:提高MLLMs在第一人称视觉辅助方面的性能,特别是在导航、安全警告和工具使用方面;改进模型对用户意图的理解,特别是在动态的第一人称视觉环境中;开发新的数据收集和标注方法,以提高数据质量和多样性;探索新的训练策略,以解决当前MLLMs的局限性。