CHOP: Mobile Operating Assistant with Constrained High-frequency Optimized Subtask Planning
作者: Yuqi Zhou, Shuai Wang, Sunhao Dai, Qinglin Jia, Zhaocheng Du, Zhenhua Dong, Jun Xu
发布时间: 2025-03-07
来源: arxiv
研究方向: 移动操作系统助手与视觉语言模型
主要内容
本文提出了一种名为CHOP(Constrained High-frequency Optimized Subtask Planning)的移动操作系统助手架构,该架构通过使用基于人类规划的子任务作为“基础向量”,克服了视觉语言模型在GUI场景规划中的不足,从而提高了任务执行的有效性和效率。
主要贡献
1. 提出了一种新的架构CHOP,首次引入了“基础子任务”,并解决了视觉语言模型在GUI场景中缺乏规划能力的问题。
2. 构建了首个包含用户规划过程的中文数据集,并引入了三个新的效率评估指标。
3. 在英语和中文数据集上实现了最先进的性能,实验结果表明它生成了更高质量的子任务。
研究方法
1. 基于人类规划的子任务提取:通过四个步骤(动词提取、同义词聚类、总结和频率过滤)收集常见子任务,构建“基础子任务”空间。
2. 多智能体架构:包含计划代理和动作代理,计划代理负责任务分解,动作代理负责执行动作。
3. 基础子任务的使用:在规划过程中使用基础子任务,限制输出到预定义的任务,以提高执行效率。
实验结果
实验结果表明,CHOP在英语和中文数据集上均取得了最先进的性能,在有效性和效率方面均优于主流的基于视觉语言模型的助手。
未来工作
未来研究将探索以下方面:开发自动评估流程,以提高数据规模和结果的稳定性和可重复性;研究动作代理和 grounding model 之间的潜在挑战;探索使用合成数据对视觉语言模型进行微调,以进一步增强其在GUI场景中的规划能力。