CHOP: Mobile Operating Assistant with Constrained High-frequency Optimized Subtask Planning

作者: Yuqi Zhou, Shuai Wang, Sunhao Dai, Qinglin Jia, Zhaocheng Du, Zhenhua Dong, Jun Xu

发布时间: 2025-03-07

来源: arxiv

研究方向: 移动操作系统助手与视觉语言模型

主要内容

本文提出了一种名为CHOP(Constrained High-frequency Optimized Subtask Planning)的移动操作系统助手架构,该架构通过使用基于人类规划的子任务作为“基础向量”,克服了视觉语言模型在GUI场景规划中的不足,从而提高了任务执行的有效性和效率。

主要贡献

1. 提出了一种新的架构CHOP,首次引入了“基础子任务”,并解决了视觉语言模型在GUI场景中缺乏规划能力的问题。

2. 构建了首个包含用户规划过程的中文数据集,并引入了三个新的效率评估指标。

3. 在英语和中文数据集上实现了最先进的性能,实验结果表明它生成了更高质量的子任务。

研究方法

1. 基于人类规划的子任务提取:通过四个步骤(动词提取、同义词聚类、总结和频率过滤)收集常见子任务,构建“基础子任务”空间。

2. 多智能体架构:包含计划代理和动作代理,计划代理负责任务分解,动作代理负责执行动作。

3. 基础子任务的使用:在规划过程中使用基础子任务,限制输出到预定义的任务,以提高执行效率。

实验结果

实验结果表明,CHOP在英语和中文数据集上均取得了最先进的性能,在有效性和效率方面均优于主流的基于视觉语言模型的助手。

未来工作

未来研究将探索以下方面:开发自动评估流程,以提高数据规模和结果的稳定性和可重复性;研究动作代理和 grounding model 之间的潜在挑战;探索使用合成数据对视觉语言模型进行微调,以进一步增强其在GUI场景中的规划能力。