PromptPex: Automatic Test Generation for Language Model Prompts

作者: Reshabh K Sharma, Jonathan De Halleux, Shraddha Barke, Benjamin Zorn

发布时间: 2025-03-10

来源: arxiv

研究方向: 人工智能与软件工程

主要内容

本文研究了如何为大型语言模型（LLM）的提示生成自动测试，以提升其稳定性和鲁棒性。作者提出了PromptPex，一个基于LLM的工具，能够自动生成和评估针对特定提示的单元测试。该工具通过提取输入和输出规范来生成多样化的测试用例，并能够识别当提示更改时出现的回归问题。

1. 开发了PromptPex，一个基于LLM的工具，用于自动生成和评估针对AI模型提示的单元测试。

2. 提出了一种从提示中提取输入规范和输出规则的新方法，用于测试和改进提示。

3. 使用基准提示集和多种AI模型评估了PromptPex的有效性，并展示了其在生成更多非合规测试方面的优势。

1. 使用LLM从输入提示中提取规范。

2. 基于提取的规范生成测试用例。

3. 使用LLM作为评估者来检查测试输出是否符合规范。

4. 通过在多个AI模型上运行测试来评估模型对提示的兼容性。

PromptPex在生成更多非合规测试方面优于基线LLM测试生成器，并能够清楚地识别不同模型对给定提示的相对能力。实验结果表明，PromptPex能够有效地生成针对不同模型的测试用例，并有助于理解不同模型对提示的解释方式。

未来工作将集中在生成更复杂的输入测试、提取更复杂的逻辑约束以及将测试生成与提示优化方法集成。