NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms
作者: Yashan Wang, Shangda Wu, Jianhuai Hu, Xingjian Du, Yueqi Peng, Yongxin Huang, Shuai Fan, Xiaobing Li, Feng Yu, Maosong Sun
发布时间: 2025-02-27
来源: arxiv
研究方向: 音乐生成与音乐信息检索
主要内容
本文研究了如何利用大型语言模型(LLM)技术来生成高质量的古典乐谱。通过预训练、微调和强化学习等方法,模型能够在不同风格和乐器配置下生成具有音乐美感的乐谱。
主要贡献
1. 提出了一种名为 NotaGen 的符号音乐生成模型,该模型实现了 LLM 训练范式,并在主观 A/B 测试中优于基线模型。
2. 提出了 CLaMP-DPO 强化学习方法,该方法通过直接偏好优化(DPO)算法,增强了符号音乐生成模型的音乐性和可控性,无需依赖人工标注或预定义奖励。
研究方法
1. 预训练:在 1.6M 首音乐上进行预训练,以捕捉基本的音乐结构和模式。
2. 微调:在 9K 首高质量的古典音乐上进行微调,以进一步增强生成质量。
3. 强化学习:使用 CLaMP-DPO 方法,通过直接偏好优化(DPO)算法,优化音乐生成模型。
4. CLaMP 2:一个多模态符号音乐信息检索模型,用于评估生成音乐的质量。
实验结果
实验结果表明,CLaMP-DPO 算法有效地提高了符号音乐生成模型的可控性和音乐性。在主观 A/B 测试中,NotaGen 模型在音乐美感方面优于基线模型。
未来工作
未来工作可以扩展这个框架,将其应用于更广泛的音乐类型,如爵士、流行和民族音乐,并探索其与新兴音乐生成模型的兼容性。