PromptPex: Automatic Test Generation for Language Model Prompts

作者: Reshabh K Sharma, Jonathan De Halleux, Shraddha Barke, Benjamin Zorn

发布时间: 2025-03-10

来源: arxiv

研究方向: 人工智能与软件工程

主要内容

本文研究了如何为大型语言模型(LLM)的提示生成自动测试,以提升其稳定性和鲁棒性。作者提出了PromptPex,一个基于LLM的工具,能够自动生成和评估针对特定提示的单元测试。该工具通过提取输入和输出规范来生成多样化的测试用例,并能够识别当提示更改时出现的回归问题。

主要贡献

1. 开发了PromptPex,一个基于LLM的工具,用于自动生成和评估针对AI模型提示的单元测试。

2. 提出了一种从提示中提取输入规范和输出规则的新方法,用于测试和改进提示。

3. 使用基准提示集和多种AI模型评估了PromptPex的有效性,并展示了其在生成更多非合规测试方面的优势。

研究方法

1. 使用LLM从输入提示中提取规范。

2. 基于提取的规范生成测试用例。

3. 使用LLM作为评估者来检查测试输出是否符合规范。

4. 通过在多个AI模型上运行测试来评估模型对提示的兼容性。

实验结果

PromptPex在生成更多非合规测试方面优于基线LLM测试生成器,并能够清楚地识别不同模型对给定提示的相对能力。实验结果表明,PromptPex能够有效地生成针对不同模型的测试用例,并有助于理解不同模型对提示的解释方式。

未来工作

未来工作将集中在生成更复杂的输入测试、提取更复杂的逻辑约束以及将测试生成与提示优化方法集成。