ToolFuzz -- Automated Agent Tool Testing

作者: Ivan Milev, Mislav Balunović, Maximilian Baader, Martin Vechev

发布时间: 2025-03-07

来源: arxiv

研究方向: 人工智能与机器学习

主要内容

本文研究了大型语言模型（LLM）在现实世界应用中的工具使用问题，提出了TOOLFUZZ，一种自动测试工具文档的方法，旨在提高LLM代理的可靠性。

1. 提出了TOOLFUZZ，一种自动测试工具文档的方法。

2. 设计了两个基准测试，用于评估文件管理和GitHub代理的工具使用。

3. 在多种代理工具和任务上进行了全面的实验评估。

4. 发现许多公开可用的工具存在不完整的问题，TOOLFUZZ能够识别出比提示工程方法多20倍的错误输入。

1. 结合了模糊测试技术和基于LLM的查询生成，以发现工具运行时错误。

2. 使用同义词提示生成和一系列级联的一致性和正确性检查，以发现导致代理响应不正确的查询。

3. 使用LLM进行一致性检查和正确性评估。

4. 引入了两个新的基准测试：文件管理基准测试和GitHub基准测试。

TOOLFUZZ在检测错误方面表现出色，能够有效识别工具文档中的错误，从而提高LLM代理的可靠性。

将TOOLFUZZ扩展到同时测试多个工具，以发现跨协调失败或自动化文档改进。