Quantifying the Robustness of Retrieval-Augmented Language Models Against Spurious Features in Grounding Data
作者: Shiping Yang, Jie Wu, Wenbiao Ding, Ning Wu, Shining Liang, Ming Gong, Hengyuan Zhang, Dongmei Zhang
发布时间: 2025-03-10
来源: arxiv
研究方向: 检索增强语言模型(RAG)的鲁棒性研究
主要内容
该研究主要针对检索增强语言模型在真实世界应用中的鲁棒性问题,特别是针对数据中的虚假特征(隐式噪声)对模型的影响进行了深入分析。
主要贡献
1. 扩展了虚假特征的定义,将其应用于RAG系统。
2. 提出了一个新的评估框架SURE,用于评估RAG模型对虚假特征的鲁棒性。
3. 通过大量实验和数据分析,揭示了虚假特征对RAG模型性能的影响。
4. 创建了SIG基准数据集,用于评估RAG模型对虚假特征的鲁棒性。
5. 评估了12种不同架构和规模的LLM,结果表明保持对虚假特征的鲁棒性仍然是一个重大挑战。
研究方法
1. 通过初步实验证明了RAG模型对语义无关特征的敏感性。
2. 设计了一个数据合成管道,用于自动化注入虚假特征。
3. 采用双向蕴涵算法和字符串匹配策略来确保因果特征保持不变。
4. 定义了鲁棒性评估指标,包括胜率、失败率和鲁棒率。
5. 创建了SIG基准数据集,用于评估RAG模型对虚假特征的鲁棒性。
实验结果
实验结果表明,虚假特征对RAG模型的性能有显著影响,特别是在处理包含虚假特征的文档时。此外,实验还发现,并非所有虚假特征都是有害的,有些甚至可能有益。
未来工作
未来研究将探索减轻虚假特征对RAG模型影响的方法,并开发新的评估指标和基准数据集,以更好地评估RAG模型的鲁棒性。