Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems

作者: Fei Tang, Yongliang Shen, Hang Zhang, Siqi Chen, Guiyang Hou, Wenqi Zhang, Wenqiao Zhang, Kaitao Song, Weiming Lu, Yueting Zhuang

发布时间: 2025-03-11

来源: arxiv

研究方向: 图形用户界面(GUI)自动化与视觉语言模型(VLM)结合

主要内容

FOCUS是一个结合快速预测与深入分析的GUI定位模型，旨在提高GUI自动化系统的性能，使其能够更准确地根据自然语言指令定位和解释界面元素。

1. 提出了FOCUS，一个结合快速预测与深入分析的GUI定位框架。

2. 引入了将GUI定位分解为渐进阶段的分层训练方法。

3. 开发了基于任务复杂度的自适应系统切换机制。

4. 在ScreenSpot和ScreenSpot-Pro基准测试中实现了最先进的性能。

1. 双系统数据合成：将GUI定位分解为渐进阶段，并构建训练数据。

2. 双系统FOCUS训练：为快速定位和系统分析开发专门模型能力。

3. 自适应系统切换：根据任务复杂度动态地在快速和系统分析之间切换。

4. 使用Qwen2-VL-2B-Instruct模型，并进行微调以适应GUI定位任务。

FOCUS在ScreenSpot和ScreenSpot-Pro基准测试中均取得了最先进的性能。在ScreenSpot上，平均准确率为77.4%，在ScreenSpot-Pro上，平均准确率为13.3%。这表明FOCUS在处理复杂GUI场景时表现尤为出色。

未来工作可能包括提高图标识别能力，减少计算开销，以及增强处理复杂GUI场景的能力，特别是在专业软件环境中。