Is My Text in Your AI Model? Gradient-based Membership Inference Test applied to LLMs
作者: Gonzalo Mancera, Daniel de Alcala, Julian Fierrez, Ruben Tolosana, Aythami Morales
发布时间: 2025-03-11
来源: arxiv
研究方向: 自然语言处理(NLP)与机器学习模型隐私保护
主要内容
本文研究如何使用基于梯度的成员推理测试(gMINT)来检测特定文本是否被用于训练语言模型。该方法通过分析模型在训练过程中对数据样本的梯度反应,来识别数据样本是否属于训练集。
主要贡献
1. 首次将gMINT应用于语言模型,特别是Transformer模型。
2. 在七个Transformer模型和六个数据集上评估了gMINT,包括超过250万个句子。
3. 实验结果表明,gMINT在文本分类任务中具有高准确性,AUC分数在85%到99%之间。
4. gMINT可以作为可扩展且可靠的工具,用于审计机器学习模型,确保透明度,保护敏感数据,并促进AI/NLP技术的道德合规性。
研究方法
1. 基于梯度的成员推理测试(gMINT)
2. Transformer语言模型
3. 文本分类任务
4. 数据集包括AgNews、DBPedia、IMDB、Steam Reviews、Sentiment140和Twitter Sentiment
5. 梯度分析
实验结果
实验结果表明,gMINT在文本分类任务中具有高准确性,AUC分数在85%到99%之间。在内部数据库评估(1-vs-1)和混合数据库评估(1-vs-6)中,gMINT都表现出良好的性能。
未来工作
未来的工作将包括将gMINT应用于其他类型的语言模型,如生成式模型;研究如何在不合作或模型所有者试图隐藏训练数据的情况下使用gMINT;以及分析标记数量对MINT模型性能的影响。