Evaluation of Safety Cognition Capability in Vision-Language Models for Autonomous Driving
作者: Enming Zhang, Peizhe Gong, Xingyuan Dai, Yisheng Lv, Qinghai Miao
发布时间: 2025-03-11
来源: arxiv
研究方向: 自动驾驶与视觉语言模型
主要内容
本文提出了一种名为SCD-Bench的新型评估方法,用于评估自动驾驶中视觉语言模型(VLM)的安全认知能力。该方法通过四个维度的任务来评估VLM的安全认知能力,包括命令误解、恶意决策、感知诱导和道德困境。
主要贡献
1. 提出了SCD-Bench,一个用于评估自动驾驶中VLM安全认知能力的基准。
2. 开发了自动驾驶图像-文本标注系统(ADA),以解决大规模标注的挑战。
3. 通过自动评估方法,确保了数据质量,并与人工评估结果达成99.74%的一致率。
4. 初步实验结果表明,现有的开源模型在安全认知方面存在不足,与GPT-4o相比存在显著差距。
5. 提出了安全率(SR)和攻击成功率(AR)等新的安全指标,以量化评估结果。
研究方法
1. 构建了一个包含四个维度任务的开放性问题-答案数据集,用于评估VLM的安全认知能力。
2. 开发了自动驾驶图像-文本标注系统(ADA),以自动生成多样化的图像-文本对。
3. 开发了一个基于大型语言模型(LLM)的自动评估方法,以量化评估结果。
4. 进行了人工评估,以验证自动评估方法的有效性。
实验结果
实验结果表明,现有的开源模型在安全认知方面存在不足,与GPT-4o相比存在显著差距。特别是,轻量级模型(1B-4B)在安全认知方面表现较差,这对将VLM集成到自动驾驶系统中构成了重大挑战。
未来工作
未来将致力于改进评估方法,并进一步探索轻量级VLM在自动驾驶中的安全认知能力。