CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection

作者: Richard A. Dubniczky, Krisztofer Zoltán Horvát, Tamás Bisztray, Mohamed Amine Ferrag, Lucas C. Cordeiro, Norbert Tihanyi

发布时间: 2025-03-14

来源: arxiv

研究方向: 软件安全与人工智能

主要内容

该研究旨在评估不同方法在检测源代码中漏洞方面的能力,包括静态分析工具、形式化验证方法和大型语言模型(LLM)。研究人员创建了CASTLE(CWE自动安全测试和低级评估)基准数据集,包含250个微基准程序,涵盖25种常见的CWE。他们使用CASTLE分数评估了13个静态分析工具、10个LLM和2个形式化验证工具。

主要贡献

1. 引入了CASTLE基准数据集,用于评估不同工具的漏洞检测能力。

2. 提出了CASTLE分数,一个用于评估工具性能的新指标。

3. 对13个静态分析工具、10个LLM和2个形式化验证工具进行了广泛比较。

4. 揭示了LLM在检测小型代码片段中的漏洞方面的优异表现,但准确性随代码规模增长而下降。

研究方法

1. 创建了包含250个微基准程序的CASTLE基准数据集。

2. 使用CASTLE分数评估了不同工具的性能。

3. 对静态分析工具、形式化验证方法和LLM进行了比较。

4. 分析了实验结果,以揭示不同工具的优缺点。

实验结果

LLM在小型代码片段中表现出色,但准确性随代码规模增长而下降。静态分析工具在检测漏洞方面表现中等,但会产生大量误报。形式化验证工具具有很低的误报率,但不能检测某些高级漏洞。

未来工作

研究未来将探讨如何提高LLM在大型代码库中的性能,以及如何改进CASTLE基准数据集以更好地反映真实世界的软件漏洞。