Beyond Black-Box Benchmarking: Observability, Analytics, and Optimization of Agentic Systems

作者: Dany Moshkovich, Hadar Mulian, Sergey Zeltyn, Natti Eder, Inna Skarbovsky, Roy Abitbol

发布时间: 2025-03-11

来源: arxiv

研究方向: 智能体系统分析与优化

主要内容

本文探讨了智能体系统(Agentic Systems)的观察性、分析和优化问题,特别是针对基于大型语言模型(LLMs)的智能体系统。由于智能体系统具有非确定性、动态性和复杂交互等特点,传统的评估和基准测试方法难以适用。

主要贡献

1. 识别了现有智能体系统评估方法的缺陷,特别是传统基准测试在捕捉非确定性行为和性能方面的局限性。

2. 通过实证实验和用户研究验证了这些缺陷,强调了其在开发、测试和维护阶段的影响。

3. 提出了智能体系统行为基准测试,定义了核心智能体系统元素,并引入了语义约定用于可观察性和分析分类。

4. 提出了一种新的基准测试方法,用于评估智能体分析技术,并介绍了ABBench数据集,该数据集遵循此方法。

研究方法

1. 实验研究:通过设计实验来测试和量化智能体系统的执行流和输出变化。

2. 用户研究:对专业人士进行用户研究,以了解他们对智能体系统的看法和需求。

3. 基准测试:提出了ABBench基准测试,用于评估智能体分析系统的性能。

4. 数据分析:使用多种数据分析方法来评估智能体系统的行为和性能。

5. 可观察性和分析分类:定义了智能体系统可观察性和分析分类,以支持系统的全面评估。

实验结果

实验结果表明,基于LLMs的智能体系统在执行流和输出方面可能表现出非确定性。这主要是由于LLMs的随机性、系统组件之间的相互依赖性以及基于语言交互的影响。实验结果还表明,自然语言输入的变异性会影响执行结果,即使给定的输入相同,系统也可能在不同运行中产生不同的输出。

未来工作

未来工作将集中在以下几个方面:扩展可观察性和分析分类,以捕获更细微的智能体行为,特别是基于上下文的决策、长期依赖性和多智能体交互;扩展基准测试方法,以包含动态评估场景,以提高其在现实世界部署中的适用性;开发实用的工具和技术,用于智能体系统分析和优化,同时减少非确定性行为的影响;探索实时性能监控和自适应优化策略,以显著提高智能体系统在实际应用中的鲁棒性和效率。