Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents

作者: Haoyu Wang, Sunhao Dai, Haiyuan Zhao, Liang Pang, Xiao Zhang, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen

发布时间: 2025-03-12

来源: arxiv

研究方向: 人工智能,信息检索,预训练语言模型

主要内容

本文研究了基于预训练语言模型(PLM)的检索器在信息检索过程中存在的源偏差问题,即检索器倾向于将低困惑度的文档(通常为LLM生成内容)评估为更相关。作者通过构建因果图,分析了困惑度对检索结果的影响,并提出了因果诊断和校正(CDC)方法来减轻这种偏差。

主要贡献

1. 构建了因果图,并通过实验验证了PLM检索器对低困惑度文档赋予更高相关性评分的现象。

2. 提供了理论分析,解释了困惑度影响PLM检索器的机制,即检索任务和语言模型任务损失函数梯度的正相关关系。

3. 提出了CDC方法,通过在推理时分离困惑度的因果效应,实现校准的无偏相关性评分,有效减轻源偏差。

研究方法

1. 构建因果图

2. 使用两阶段最小二乘法(2SLS)回归来估计因果效应

3. 理论分析

4. 实验验证

实验结果

实验结果表明,CDC方法在不同数据集和检索器上均有效减轻了源偏差,且对检索性能的影响较小。此外,CDC方法在不同LLM和领域上均具有泛化能力。

未来工作

未来研究可以进一步探索以下方面:1. 针对不同类型的检索器,例如自回归嵌入模型和基于CLS的检索器,进行CDC方法的扩展;2. 研究如何更好地平衡检索性能和源偏差之间的关系;3. 探索其他减轻源偏差的方法,例如数据增强和模型正则化。