Shh, don't say that! Domain Certification in LLMs

作者: Cornelius Emde, Alasdair Paren, Preetham Arvind, Maxime Kayser, Tom Rainforth, Thomas Lukasiewicz, Bernard Ghanem, Philip H. S. Torr, Adel Bibi

发布时间: 2025-02-27

来源: arxiv

研究方向: 自然语言处理，大语言模型（LLM）的领域认证

主要内容

该研究旨在解决大语言模型在特定领域应用中可能出现的越界行为问题。通过引入领域认证的概念，提出了一种名为VALID的算法，用于限制LLM在对抗攻击下的越界行为，并确保模型在特定领域内生成输出。

1. 引入了领域认证的概念，为LLM的越界行为提供了数学保证。

2. 提出了VALID算法，通过迭代拒绝采样来限制LLM的越界行为。

3. 在多个数据集上验证了VALID算法的有效性，证明了其能够生成有意义的证书，并紧密地限制越界样本的概率。

4. 通过实验证明了VALID算法在多个代表性设置中的有效性，并展示了其在资源有限的环境中的易用性。

1. 领域认证

2. VALID算法：迭代拒绝采样

3. Renyi散度

4. 长度归一化

实验结果表明，VALID算法在多个数据集上均能有效限制LLM的越界行为，并生成有意义的证书。在医疗问答、莎士比亚文本和计算机科学新闻等领域的实验中，VALID算法均能有效地将模型保持在目标领域内，并减少越界样本的概率。

未来工作将包括：探索更大、更专业的模型作为领域生成器G，以评估其生成证书和拒绝率的性能；研究更复杂的多项式作为拒绝阈值，以提供更精确的越界检测和证书；开发具有概率决策规则的拒绝方案，以提供更好的性能。