Think Twice, Click Once: Enhancing GUI Grounding via Fast and Slow Systems
作者: Fei Tang, Yongliang Shen, Hang Zhang, Siqi Chen, Guiyang Hou, Wenqi Zhang, Wenqiao Zhang, Kaitao Song, Weiming Lu, Yueting Zhuang
发布时间: 2025-03-11
来源: arxiv
研究方向: 图形用户界面(GUI)自动化与视觉语言模型(VLM)结合
主要内容
FOCUS是一个结合快速预测与深入分析的GUI定位模型,旨在提高GUI自动化系统的性能,使其能够更准确地根据自然语言指令定位和解释界面元素。
主要贡献
1. 提出了FOCUS,一个结合快速预测与深入分析的GUI定位框架。
2. 引入了将GUI定位分解为渐进阶段的分层训练方法。
3. 开发了基于任务复杂度的自适应系统切换机制。
4. 在ScreenSpot和ScreenSpot-Pro基准测试中实现了最先进的性能。
研究方法
1. 双系统数据合成:将GUI定位分解为渐进阶段,并构建训练数据。
2. 双系统FOCUS训练:为快速定位和系统分析开发专门模型能力。
3. 自适应系统切换:根据任务复杂度动态地在快速和系统分析之间切换。
4. 使用Qwen2-VL-2B-Instruct模型,并进行微调以适应GUI定位任务。
实验结果
FOCUS在ScreenSpot和ScreenSpot-Pro基准测试中均取得了最先进的性能。在ScreenSpot上,平均准确率为77.4%,在ScreenSpot-Pro上,平均准确率为13.3%。这表明FOCUS在处理复杂GUI场景时表现尤为出色。
未来工作
未来工作可能包括提高图标识别能力,减少计算开销,以及增强处理复杂GUI场景的能力,特别是在专业软件环境中。