ReaLJam: Real-Time Human-AI Music Jamming with Reinforcement Learning-Tuned Transformers

作者: Alexander Scarlatos, Yusong Wu, Ian Simon, Adam Roberts, Tim Cooijmans, Natasha Jaques, Cassie Tarakajian, Cheng-Zhi Anna Huang

发布时间: 2025-03-03

来源: arxiv

研究方向: 人工智能音乐生成与交互

主要内容

该研究提出了一种名为ReaLJam的实时人机音乐即兴系统，通过强化学习训练的Transformer模型，实现人与AI在音乐即兴创作中的实时互动。

1. ReaLJam系统实现了低延迟、高同步的实时人机音乐即兴。

2. 引入了‘预期’概念，使AI能够预测音乐走向并向用户展示其计划。

3. 通过用户研究验证了系统的有效性，并揭示了音乐建模和用户界面设置的重要性。

4. 首次使用大型Transformer模型进行实时即兴创作。

5. 提出了多种技术解决方案，如使用瀑布显示来展示即将到来的和弦，以及用于客户端-服务器同步的通信协议。

1. 强化学习

2. Transformer模型

3. 用户研究

4. 客户端-服务器架构

5. MIDI设备交互

用户研究结果表明，ReaLJam系统能够提供愉悦且富有音乐性的即兴创作体验。强化学习训练的AI模型在音乐质量上优于预训练模型，但仍然存在一些缺陷，如和弦预测不够准确和缺乏音乐结构感。用户界面设置对用户体验有显著影响，用户偏好因人而异。

未来工作将集中在以下几个方面：改进音乐生成模型，使其能够更好地适应不同的旋律风格和音乐结构；提供更多高级控制功能，如指定音乐类型或模型输出的稀疏性；进行更多用户研究，以确定如何更好地支持专家和初学者；将预期和同步解决方案集成到其他实时人机协作应用中。