ToolFuzz -- Automated Agent Tool Testing

作者: Ivan Milev, Mislav Balunović, Maximilian Baader, Martin Vechev

发布时间: 2025-03-07

来源: arxiv

研究方向: 人工智能与机器学习

主要内容

本文研究了大型语言模型(LLM)在现实世界应用中的工具使用问题,提出了TOOLFUZZ,一种自动测试工具文档的方法,旨在提高LLM代理的可靠性。

主要贡献

1. 提出了TOOLFUZZ,一种自动测试工具文档的方法。

2. 设计了两个基准测试,用于评估文件管理和GitHub代理的工具使用。

3. 在多种代理工具和任务上进行了全面的实验评估。

4. 发现许多公开可用的工具存在不完整的问题,TOOLFUZZ能够识别出比提示工程方法多20倍的错误输入。

研究方法

1. 结合了模糊测试技术和基于LLM的查询生成,以发现工具运行时错误。

2. 使用同义词提示生成和一系列级联的一致性和正确性检查,以发现导致代理响应不正确的查询。

3. 使用LLM进行一致性检查和正确性评估。

4. 引入了两个新的基准测试:文件管理基准测试和GitHub基准测试。

实验结果

TOOLFUZZ在检测错误方面表现出色,能够有效识别工具文档中的错误,从而提高LLM代理的可靠性。

未来工作

将TOOLFUZZ扩展到同时测试多个工具,以发现跨协调失败或自动化文档改进。