PromptPex: Automatic Test Generation for Language Model Prompts
作者: Reshabh K Sharma, Jonathan De Halleux, Shraddha Barke, Benjamin Zorn
发布时间: 2025-03-10
来源: arxiv
研究方向: 人工智能与软件工程
主要内容
本文研究了如何为大型语言模型(LLM)的提示生成自动测试,以提升其稳定性和鲁棒性。作者提出了PromptPex,一个基于LLM的工具,能够自动生成和评估针对特定提示的单元测试。该工具通过提取输入和输出规范来生成多样化的测试用例,并能够识别当提示更改时出现的回归问题。
主要贡献
1. 开发了PromptPex,一个基于LLM的工具,用于自动生成和评估针对AI模型提示的单元测试。
2. 提出了一种从提示中提取输入规范和输出规则的新方法,用于测试和改进提示。
3. 使用基准提示集和多种AI模型评估了PromptPex的有效性,并展示了其在生成更多非合规测试方面的优势。
研究方法
1. 使用LLM从输入提示中提取规范。
2. 基于提取的规范生成测试用例。
3. 使用LLM作为评估者来检查测试输出是否符合规范。
4. 通过在多个AI模型上运行测试来评估模型对提示的兼容性。
实验结果
PromptPex在生成更多非合规测试方面优于基线LLM测试生成器,并能够清楚地识别不同模型对给定提示的相对能力。实验结果表明,PromptPex能够有效地生成针对不同模型的测试用例,并有助于理解不同模型对提示的解释方式。
未来工作
未来工作将集中在生成更复杂的输入测试、提取更复杂的逻辑约束以及将测试生成与提示优化方法集成。