Exploiting Instruction-Following Retrievers for Malicious Information Retrieval
作者: Parishad BehnamGhader, Nicholas Meade, Siva Reddy
发布时间: 2025-03-12
来源: arxiv
研究方向: 信息检索与安全
主要内容
该研究主要探讨了指令跟随检索器在恶意信息检索中的潜在风险。研究者通过实验发现,大多数检索器能够满足恶意查询,并可能选择相关的有害内容。此外,他们还发现,即使是安全对齐的LLM,在接收到有害检索到的段落时,也可能满足恶意请求。
主要贡献
1. 揭示了指令跟随检索器在恶意信息检索中的潜在风险。
2. 发现了高度相关的有害信息可以通过利用检索器的指令跟随能力被检索出来。
3. 展示了即使是安全对齐的LLM,在接收到有害检索到的段落时,也可能满足恶意请求。
4. 强调了随着检索器能力的提高,与恶意使用相关的风险。
5. 提出了改进检索器安全性的未来研究方向。
研究方法
1. 构建了一个包含有害和良性段落的检索语料库。
2. 评估了六个检索器的性能,包括DPR、Contriever、LLM2Vec、NV-Embed、Promptriever和BGE-en-icl。
3. 使用LLM生成有害段落,并使用LlamaGuard评估生成的响应的有害性。
4. 通过细粒度查询评估指令跟随检索器在有害信息检索中的性能。
5. 使用RAG方法,将检索到的有害段落包含在上下文中,以生成最终响应。
实验结果
研究发现,所有六个研究的检索器都可以为各种恶意查询选择相关段落。LLM2Vec和NV-Embed在评估的恶意查询中分别选择了正确的段落,分别占61.35%和59.04%。此外,即使是安全对齐的LLM,如Llama3,在接收到有害检索到的段落时,也可能满足恶意请求。
未来工作
未来的工作将集中在改进检索器的安全性上,例如开发无法执行此类恶意请求的检索器,同时保持良性检索能力。此外,研究还将关注如何减少检索器在寻找敏感或个人信息方面的能力。