Noise-based reward-modulated learning
作者: Jesús García Fernández, Nasir Ahmad, Marcel van Gerven
发布时间: 2025-04-02
来源: arxiv
研究方向: 强化学习与神经可塑性
主要内容
提出了一种基于噪声的奖励调制学习(NRL)方法,旨在解决强化学习中传统方法在资源受限环境或使用非可微神经网络时的局限性。该方法结合了方向导数理论和类似Hebbian的更新,以实现强化学习中的高效、无梯度学习。
主要贡献
1. 提出了一种新的噪声驱动学习机制NRL,用于强化学习。
2. 利用方向导数理论和Hebbian-like更新,实现强化学习中的梯度自由学习。
3. NRL使用奖励预测误差作为优化目标,并引入了资格迹来促进延迟奖励环境中的时间信用分配。
4. NRL在资源受限环境中具有高效性和可扩展性,适用于神经形态硬件。
5. 实验结果表明,NRL在延迟奖励问题上显著优于RMHL,与基于BP的基线具有竞争力。
研究方法
1. 方向导数理论
2. Hebbian-like更新
3. 奖励预测误差(RPE)
4. 资格迹(eligibility trace)
5. 噪声注入
6. 无梯度学习
实验结果
实验结果表明,NRL在即时和延迟奖励问题上的性能均优于RMHL,并且与基于BP的基线具有竞争力。此外,NRL在具有多个隐藏层的深层网络中也能有效进行信用分配,这表明NRL在处理复杂任务方面的潜力。
未来工作
未来工作可以探索以下方向:1)提高NRL在更复杂网络结构中的性能;2)研究如何在不进行单独的干净和噪声传递的情况下估计噪声的影响;3)进一步探索NRL在神经形态硬件中的应用;4)将NRL与其他机器学习算法相结合,以进一步提高其性能。