Value of Information-based Deceptive Path Planning Under Adversarial Interventions

作者: Wesley A. Suttle, Jesse Milzman, Mustafa O. Karabag, Brian M. Sadler, Ufuk Topcu

发布时间: 2025-04-02

来源: arxiv

研究方向: 欺骗路径规划(Deceptive Path Planning)和对抗性干预下的决策过程(Adversarial Interventions in Decision Processes)

主要内容

本文研究了在观察者能够进行对抗性干预的环境中,如何设计路径以隐藏其真实目标。作者提出了一个基于马尔可夫决策过程(MDP)的模型,并开发了一种新的信息价值(VoI)目标来指导欺骗路径规划策略的设计。通过VoI目标,路径规划代理能够欺骗对抗性观察者选择次优干预措施,从而选择对观察者信息价值低的轨迹。作者还推导了高效的线性规划(LP)方法来合成在对抗性干预下执行欺骗路径规划的政策。

主要贡献

1. 提出了一个针对对抗性干预的欺骗路径规划(DPP)的新模型。

2. 开发了一种基于VoI的欺骗指标,用于量化欺骗行为对观察者信息价值的影响。

3. 推导了高效的LP方法来合成在对抗性干预下执行DPP的策略。

4. 通过实验验证了所提出的方法在对抗性干预下实现欺骗的有效性,并展示了其相对于现有DPP方法和保守路径规划方法的优越性能。

研究方法

1. 马尔可夫决策过程(MDP)

2. 价值信息(VoI)

3. 线性规划(LP)

4. 最大熵原理

5. softmax值迭代

实验结果

实验结果表明,VoI DPP在对抗性设置中提供了灵活的欺骗能力,而被动观察者方法不适合对抗性设置,保守路径规划方法缺乏灵活性。在观察者干预期间,VoI DPP在欺骗窗口(CDW)内优于被动观察者方法和保守路径规划方法,从而实现了更低的路径成本。

未来工作

需要进行更深入的实验验证,并探索关键欺骗窗口的重要性。此外,可以研究如何将VoI DPP扩展到更复杂的场景,例如动态环境或具有多个观察者的系统。