Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems

作者: Fei Tang, Yongliang Shen, Hang Zhang, Siqi Chen, Guiyang Hou, Wenqi Zhang, Wenqiao Zhang, Kaitao Song, Weiming Lu, Yueting Zhuang

发布时间: 2025-03-11

来源: arxiv

研究方向: 图形用户界面(GUI)自动化与视觉语言模型(VLM)结合

主要内容

FOCUS是一个结合快速预测与深入分析的GUI定位模型,旨在提高GUI自动化系统的性能,使其能够更准确地根据自然语言指令定位和解释界面元素。

主要贡献

1. 提出了FOCUS,一个结合快速预测与深入分析的GUI定位框架。

2. 引入了将GUI定位分解为渐进阶段的分层训练方法。

3. 开发了基于任务复杂度的自适应系统切换机制。

4. 在ScreenSpot和ScreenSpot-Pro基准测试中实现了最先进的性能。

研究方法

1. 双系统数据合成:将GUI定位分解为渐进阶段,并构建训练数据。

2. 双系统FOCUS训练:为快速定位和系统分析开发专门模型能力。

3. 自适应系统切换:根据任务复杂度动态地在快速和系统分析之间切换。

4. 使用Qwen2-VL-2B-Instruct模型,并进行微调以适应GUI定位任务。

实验结果

FOCUS在ScreenSpot和ScreenSpot-Pro基准测试中均取得了最先进的性能。在ScreenSpot上,平均准确率为77.4%,在ScreenSpot-Pro上,平均准确率为13.3%。这表明FOCUS在处理复杂GUI场景时表现尤为出色。

未来工作

未来工作可能包括提高图标识别能力,减少计算开销,以及增强处理复杂GUI场景的能力,特别是在专业软件环境中。