Privacy Auditing of Large Language Models
作者: Ashwinee Panda, Xinyu Tang, Milad Nasr, Christopher A. Choquette-Choo, Prateek Mittal
发布时间: 2025-03-11
来源: arxiv
研究方向: 隐私审计与大型语言模型
主要内容
本文研究了大型语言模型(LLMs)的隐私审计问题,提出了一种新的方法来检测LLMs的隐私泄露。该方法通过设计更易被模型记住的“哨兵”数据,提高了隐私审计的准确性。
主要贡献
1. 开发了一种更有效的“哨兵”设计方法,提高了隐私审计的准确性。
2. 首次在黑盒设置下对LLMs进行了隐私审计,无需训练影子模型或访问模型。
3. 提出了新的方法来评估LLMs训练中的隐私泄露。
4. 在多个LLMs上进行了实验,证明了所提出方法的有效性。
研究方法
1. 设计了一种新的“哨兵”数据生成方法,包括单语元、N-元和基于模型的哨兵。
2. 使用了新的“哨兵”数据来评估LLMs的隐私泄露。
3. 使用了一种单次运行隐私审计方法来评估DP-SGD训练的LLMs。
4. 在多个LLMs上进行了实验,包括GPT2、Pythia、Qwen和Llama3。
实验结果
实验结果表明,所提出的方法比随机“哨兵”数据更有效地检测了LLMs的隐私泄露。在Qwen2.5-0.5B模型上,新设计的“哨兵”在1%的误报率下实现了49.6%的真正例率,远高于先前方法的4.2%的真正例率。此外,该方法还可以用于提供对ε=1的模型训练的隐私审计,而该模型的理论ε为4。
未来工作
未来工作可以包括:开发新的“哨兵”设计方法,以进一步提高隐私审计的准确性;将该方法应用于其他类型的机器学习模型;研究如何在实际部署中实施隐私保护措施。