Clustering Context in Off-Policy Evaluation
作者: Daniel Guzman-Olivares, Philipp Schmidt, Jacek Golebiowski, Artur Bekasov
发布时间: 2025-03-03
来源: arxiv
研究方向: 机器学习,特别是上下文无关评估(OPE)和聚类分析
主要内容
本文研究了在上下文无关评估中,通过聚类相似上下文来提高估计准确性的方法。作者提出了CHIPS(Context-Huddling Inverse Propensity Score)估计器,该估计器通过在聚类中共享信息来减轻现有方法在日志政策与评估政策差异较大时的性能下降问题。
主要贡献
1. 提出了CHIPS估计器,通过聚类相似上下文来提高OPE的准确性。
2. 对CHIPS估计器的理论特性进行了分析,包括其偏差和方差。
3. 通过合成数据和真实数据集上的实验,验证了CHIPS估计器的有效性,特别是在信息不足的情况下。
4. 比较了CHIPS估计器与现有方法的性能,证明了其在各种情况下都优于现有方法。
研究方法
1. 聚类分析:将上下文空间划分为簇,以共享相似上下文中的信息。
2. 逆倾向得分(IPS):用于估计策略价值的经典方法。
3. 双重稳健(DR)方法:结合DM和IPS以获得低偏差、低方差估计。
4. 边际化逆倾向得分(MIPS):通过在动作嵌入之间汇总信息来改进IPS。
5. CHIPS估计器:基于聚类上下文空间,并使用IPS在簇内汇总信息。
实验结果
实验结果表明,CHIPS估计器在合成数据和真实数据集上都优于现有的OPE方法,特别是在信息不足的情况下。CHIPS在合成数据集上的表现优于IPS、DM、DR、MIPS等基线方法,在真实数据集上的表现也优于IPS、DM、DR、MRDR、MIPS等基线方法。
未来工作
未来的工作可以包括:探索如何自动选择最优簇数,结合CHIPS与纯动作嵌入方法以进一步提高性能,以及将CHIPS应用于其他领域,如推荐系统和医疗保健。