A Grey-box Text Attack Framework using Explainable AI

作者: Esther Chiramal, Kelvin Soh Boon Kai

发布时间: 2025-03-12

来源: arxiv

研究方向: 人工智能安全与可解释人工智能

主要内容

该研究提出了一种基于可解释人工智能的灰盒文本攻击框架,旨在利用可解释人工智能技术来生成对抗样本,攻击预训练的BERT模型。该框架通过分析词的重要性,用同义词替换原文中的词汇,生成对抗样本,并验证了攻击在不同Transformer模型之间的可迁移性。

主要贡献

1. 提出了一种基于可解释人工智能的灰盒文本攻击框架。

2. 通过词重要性分析,生成对抗样本,有效攻击预训练的BERT模型。

3. 验证了攻击在不同Transformer模型之间的可迁移性。

4. 提高了攻击的隐蔽性,使对抗样本更难被人类检测到。

研究方法

1. 使用可解释人工智能技术(如LIME)分析词的重要性。

2. 通过同义词替换生成对抗样本。

3. 使用多个Transformer模型作为代理模型,验证攻击的可迁移性。

4. 通过实验验证了攻击在不同模型和架构上的有效性。

实验结果

实验结果表明,该框架能够成功攻击预训练的BERT模型,并且攻击在不同Transformer模型之间具有可迁移性。对抗样本的隐蔽性较好,难以被人类检测到。

未来工作

进一步研究如何将更多的NLP攻击技术整合到框架中,如Unicode攻击等。研究更长的句子和更强的模型,以及对抗训练的模型。探索模型鲁棒性验证方法,以防止XAI利用和同义词替换攻击。