CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection
作者: Richard A. Dubniczky, Krisztofer Zoltán Horvát, Tamás Bisztray, Mohamed Amine Ferrag, Lucas C. Cordeiro, Norbert Tihanyi
发布时间: 2025-03-14
来源: arxiv
研究方向: 软件安全与人工智能
主要内容
该研究旨在评估不同方法在检测源代码中漏洞方面的能力,包括静态分析工具、形式化验证方法和大型语言模型(LLM)。研究人员创建了CASTLE(CWE自动安全测试和低级评估)基准数据集,包含250个微基准程序,涵盖25种常见的CWE。他们使用CASTLE分数评估了13个静态分析工具、10个LLM和2个形式化验证工具。
主要贡献
1. 引入了CASTLE基准数据集,用于评估不同工具的漏洞检测能力。
2. 提出了CASTLE分数,一个用于评估工具性能的新指标。
3. 对13个静态分析工具、10个LLM和2个形式化验证工具进行了广泛比较。
4. 揭示了LLM在检测小型代码片段中的漏洞方面的优异表现,但准确性随代码规模增长而下降。
研究方法
1. 创建了包含250个微基准程序的CASTLE基准数据集。
2. 使用CASTLE分数评估了不同工具的性能。
3. 对静态分析工具、形式化验证方法和LLM进行了比较。
4. 分析了实验结果,以揭示不同工具的优缺点。
实验结果
LLM在小型代码片段中表现出色,但准确性随代码规模增长而下降。静态分析工具在检测漏洞方面表现中等,但会产生大量误报。形式化验证工具具有很低的误报率,但不能检测某些高级漏洞。
未来工作
研究未来将探讨如何提高LLM在大型代码库中的性能,以及如何改进CASTLE基准数据集以更好地反映真实世界的软件漏洞。