ToolFuzz -- Automated Agent Tool Testing
作者: Ivan Milev, Mislav Balunović, Maximilian Baader, Martin Vechev
发布时间: 2025-03-07
来源: arxiv
研究方向: 人工智能与机器学习
主要内容
本文研究了大型语言模型(LLM)在现实世界应用中的工具使用问题,提出了TOOLFUZZ,一种自动测试工具文档的方法,旨在提高LLM代理的可靠性。
主要贡献
1. 提出了TOOLFUZZ,一种自动测试工具文档的方法。
2. 设计了两个基准测试,用于评估文件管理和GitHub代理的工具使用。
3. 在多种代理工具和任务上进行了全面的实验评估。
4. 发现许多公开可用的工具存在不完整的问题,TOOLFUZZ能够识别出比提示工程方法多20倍的错误输入。
研究方法
1. 结合了模糊测试技术和基于LLM的查询生成,以发现工具运行时错误。
2. 使用同义词提示生成和一系列级联的一致性和正确性检查,以发现导致代理响应不正确的查询。
3. 使用LLM进行一致性检查和正确性评估。
4. 引入了两个新的基准测试:文件管理基准测试和GitHub基准测试。
实验结果
TOOLFUZZ在检测错误方面表现出色,能够有效识别工具文档中的错误,从而提高LLM代理的可靠性。
未来工作
将TOOLFUZZ扩展到同时测试多个工具,以发现跨协调失败或自动化文档改进。