Can Test-Time Scaling Improve World Foundation Model?
作者: Wenyan Cong, Hanqing Zhu, Peihao Wang, Bangya Liu, Dejia Xu, Kevin Wang, David Z. Pan, Yan Wang, Zhiwen Fan, Zhangyang Wang
发布时间: 2025-04-02
来源: arxiv
研究方向: 世界基础模型(World Foundation Models, WFMs)测试时间缩放
主要内容
本文研究了如何通过测试时间缩放来提高世界基础模型(WFMs)的性能。WFMs通过预测未来状态来模拟物理世界,广泛应用于自动驾驶、机器人等领域。然而,它们在预训练和后训练阶段都需要大量的计算资源。本文提出了SWIFT,一个针对WFMs的测试时间缩放框架,通过在推理过程中分配额外的计算资源,提高了模型的性能,而无需重新训练或增加模型大小。
主要贡献
1. 提出了第一个针对世界基础模型的评估工具包,用于评估模型在不同下游任务中的能力。
2. 引入了SWIFT,第一个针对WFMs的测试时间缩放框架,通过整合快速标记化、基于概率的Top-K剪枝和高效的束搜索来实现高效的推理。
3. 进行了实证研究,证明了测试时间缩放对于WFMs的有效性,并揭示了测试时间缩放定律在WFMs中的应用。
4. 通过实验证明了SWIFT在提高WFMs推理性能方面的有效性,即使在计算最优条件下也能实现性能提升。
研究方法
1. 世界基础模型(WFMs)的评估工具包:提出了一个模块化、可扩展的评估工具包,支持多方面评估。
2. 测试时间缩放框架(SWIFT):通过快速标记化、基于概率的Top-K剪枝和束搜索算法来提高推理效率。
3. 实证研究:在COSMOS模型上进行了实验,验证了SWIFT的有效性。
4. 人类评估:通过两选一测试协议,对SWIFT的性能进行了评估。
实验结果
实验结果表明,SWIFT能够显著提高WFMs的推理性能,即使在计算最优条件下也能实现性能提升。实验结果表明,测试时间缩放对于WFMs是有效的,并且SWIFT能够提供一种可扩展且有效的途径来提高WFMs的推理性能,而无需重新训练或增加模型大小。
未来工作
未来工作可以探索以下方向:1)将SWIFT应用于其他类型的WFMs;2)研究如何将测试时间缩放应用于其他领域;3)探索更有效的测试时间缩放策略。