Dynamic Benchmarking of Reasoning Capabilities in Code Large Language Models Under Data Contamination

作者: Simin Chen, Pranav Pusarla, Baishakhi Ray

发布时间: 2025-03-08

来源: arxiv

研究方向: 代码大型语言模型(Code LLM)的推理能力评估与数据污染问题

主要内容

该研究针对代码大型语言模型(Code LLM)在数据污染情况下推理能力评估的难题,提出了一种名为DyCodeEval的动态基准测试套件。DyCodeEval通过使用多个智能代理来提取和修改上下文,同时保持核心逻辑不变,生成语义等效的变体,以评估Code LLM在潜在数据污染情况下的推理能力。

主要贡献

1. 提出了DyCodeEval,一个动态基准测试套件,用于在数据污染情况下评估Code LLM的推理能力。

2. 引入了动态数据生成方法,并在两个种子数据集上对21个Code LLM进行了实证研究。

3. 通过实证研究证明了DyCodeEval在数据污染风险下有效评估推理能力,同时生成多样化的问题集,以确保一致和可靠的评估。

4. 发现了传统静态基准测试可能产生错误准确性感知的问题,并提出了一个动态基准测试方法,即使在使用数据污染的场景下也能提供一致可靠的评估结果。

研究方法

1. 使用LLM代理提取和修改上下文,生成语义等效的变体。

2. 引入了动态数据生成方法,以应对数据污染问题。

3. 设计了一种验证代理,以确保新生成问题的正确性和一致性。

4. 通过模拟数据污染并对比静态和动态基准测试的结果来评估Code LLM的性能。

5. 使用多种基准测试数据集和多种Code LLM进行实证研究。

实验结果

实验结果表明,DyCodeEval在数据污染情况下有效地评估了Code LLM的推理能力,并生成了多样化的编程问题。与传统静态基准测试相比,DyCodeEval提供了更可靠和一致的评估结果,即使在数据污染的情况下也能有效反映模型的推理能力。

未来工作

未来工作将集中在提高问题生成阶段的效率,并进一步实验改进提示生成方法,以减少信息过载并提高生成问题的质量。