Mark Your LLM: Detecting the Misuse of Open-Source Large Language Models via Watermarking
作者: Yijie Xu, Aiwei Liu, Xuming Hu, Lijie Wen, Hui Xiong
发布时间: 2025-03-08
来源: arxiv
研究方向: 开源大型语言模型(LLM)的水印技术与应用
主要内容
该研究针对开源LLM的滥用问题,提出了基于后门水印和推理时水印蒸馏的方法,旨在检测LLM的知识产权侵权和生成文本滥用行为。
主要贡献
1. 定义了两种开源LLM滥用检测场景:知识产权侵权检测和生成文本检测。
2. 将现有的水印算法应用于上述两种场景,并对其进行了评估。
3. 对水印算法在进一步微调过程中的鲁棒性和对LLM性能的影响进行了评估。
4. 揭示了后门水印在知识产权侵权检测中的有效性,以及推理时水印蒸馏在两种场景中的适用性,尽管它对进一步微调的鲁棒性较弱,且对LLM性能的影响更大。
5. 提出了探索更先进的水印方法以检测开源LLM滥用的重要未来方向。
研究方法
1. 后门水印:通过在训练过程中植入特定的触发和目标对,使LLM在遇到触发词时产生预期的目标。
2. 推理时水印蒸馏:使用推理时水印方法生成的输出训练LLM,以嵌入水印。
3. 评估方法:通过p值计算方法评估水印强度,并测试模型的理解、推理和生成能力。
4. 进一步微调设置:包括连续预训练、监督指令微调、DPO和RLHF优化等常见的用户微调场景。
实验结果
实验结果表明,后门水印在知识产权侵权检测中非常有效,对各种微调过程具有很强的鲁棒性,并且对LLM性能的影响很小。而推理时水印蒸馏在两种场景中都适用,但对进一步微调的鲁棒性较弱,且对LLM性能的影响更大。
未来工作
未来研究需要开发更先进的水印算法,以更好地检测开源LLM的滥用,并减少对LLM性能的影响。