Partition Tree Weighting for Non-Stationary Stochastic Bandits
作者: Joel Veness, Marcus Hutter, Andras Gyorgy, Jordi Grau-Moya
发布时间: 2025-02-27
来源: arxiv
研究方向: 非平稳随机伯努利赌徒问题与通用源编码
主要内容
该论文提出了一种名为ActivePTW的算法,用于解决非平稳随机伯努利赌徒问题。该算法基于通用源编码原理,通过将问题转化为编码问题,从而实现对环境的建模和策略的制定。
主要贡献
1. 提出了一种名为ActivePTW的算法,用于解决非平稳随机伯努利赌徒问题。
2. 将通用源编码技术应用于赌徒问题,实现了对环境的建模和策略的制定。
3. 通过实验证明了ActivePTW算法在非平稳随机伯努利赌徒问题上的有效性,并与其他算法进行了比较。
4. 对ActivePTW算法进行了理论分析,并给出了其性能保证。
研究方法
1. 通用源编码
2. Krichevsky-Trofimov (KT) 估计
3. 分区树加权
4. 贝叶斯控制规则
5. Thompson抽样
实验结果
实验结果表明,ActivePTW算法在非平稳随机伯努利赌徒问题上的性能优于其他算法,尤其是在存在多个变化点的情况下。在平稳环境中,ActivePTW算法的性能与Thompson抽样相当。
未来工作
未来可以进一步研究ActivePTW算法在更复杂环境下的性能,并探索将通用源编码技术应用于其他决策问题。