Dynamic Benchmarking of Reasoning Capabilities in Code Large Language Models Under Data Contamination

作者: Simin Chen, Pranav Pusarla, Baishakhi Ray

发布时间: 2025-03-08

来源: arxiv

研究方向: 代码大型语言模型（Code LLM）的推理能力评估与数据污染问题

主要内容

该研究针对代码大型语言模型（Code LLM）在数据污染情况下推理能力评估的难题，提出了一种名为DyCodeEval的动态基准测试套件。DyCodeEval通过使用多个智能代理来提取和修改上下文，同时保持核心逻辑不变，生成语义等效的变体，以评估Code LLM在潜在数据污染情况下的推理能力。

1. 提出了DyCodeEval，一个动态基准测试套件，用于在数据污染情况下评估Code LLM的推理能力。

2. 引入了动态数据生成方法，并在两个种子数据集上对21个Code LLM进行了实证研究。

3. 通过实证研究证明了DyCodeEval在数据污染风险下有效评估推理能力，同时生成多样化的问题集，以确保一致和可靠的评估。

4. 发现了传统静态基准测试可能产生错误准确性感知的问题，并提出了一个动态基准测试方法，即使在使用数据污染的场景下也能提供一致可靠的评估结果。

1. 使用LLM代理提取和修改上下文，生成语义等效的变体。

2. 引入了动态数据生成方法，以应对数据污染问题。

3. 设计了一种验证代理，以确保新生成问题的正确性和一致性。

4. 通过模拟数据污染并对比静态和动态基准测试的结果来评估Code LLM的性能。

5. 使用多种基准测试数据集和多种Code LLM进行实证研究。

实验结果表明，DyCodeEval在数据污染情况下有效地评估了Code LLM的推理能力，并生成了多样化的编程问题。与传统静态基准测试相比，DyCodeEval提供了更可靠和一致的评估结果，即使在数据污染的情况下也能有效反映模型的推理能力。

未来工作将集中在提高问题生成阶段的效率，并进一步实验改进提示生成方法，以减少信息过载并提高生成问题的质量。