Multimodal Learning for Just-In-Time Software Defect Prediction in Autonomous Driving Systems
作者: Faisal Mohammad, Duksan Ryu
发布时间: 2025-03-03
来源: arxiv
研究方向: 多模态学习在即时软件缺陷预测中的应用
主要内容
本文提出了一种基于多模态学习的新方法,用于预测自动驾驶软件系统中的即时软件缺陷(JIT-SDP)。该方法利用预训练的Transformer架构处理软件系统数据集的多种数据模态,包括代码特征、变更指标和上下文信息。
主要贡献
1. 提出了一种基于预训练Transformer架构的多模态JIT-SDP模型。
2. 利用特定任务的代码语言模型CodeBERT和GraphCodeBERT验证了多模态学习的可靠性。
3. 提出了多种结合特征的方法,用于多模态Transformer。
4. 使用了三个不同的自动驾驶缺陷数据集来检查模型的可扩展性和泛化能力。
5. 实验结果表明,基于多模态学习的模型在预测精度方面优于传统的SDP模型。
研究方法
1. 数据收集:从GitHub仓库中挖掘ADS数据。
2. 数据标注:使用MA-SZZ算法进行数据标注。
3. 数据预处理:清洗数据、特征提取和数据集划分。
4. 多模态Transformer:使用预训练的Transformer模型处理文本、数值和分类数据。
5. 融合层/组合模块:将来自不同模态编码器的输出进行融合。
6. 预测层:使用全连接层输出缺陷代码变化的概率。
实验结果
实验结果表明,基于多模态学习的模型在F1分数、精确率和准确率方面均优于传统的SDP模型。其中,m-DistilBERT模型在DonkeyCar数据集上表现最佳。
未来工作
探索小型语言模型(sLLMs)和大型语言模型(LLMs)在JIT-SDP中的应用。使用SMOTE等技术进行数据重采样以进一步提高模型性能。