NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms

作者: Yashan Wang, Shangda Wu, Jianhuai Hu, Xingjian Du, Yueqi Peng, Yongxin Huang, Shuai Fan, Xiaobing Li, Feng Yu, Maosong Sun

发布时间: 2025-02-27

来源: arxiv

研究方向: 音乐生成与音乐信息检索

主要内容

本文研究了如何利用大型语言模型(LLM)技术来生成高质量的古典乐谱。通过预训练、微调和强化学习等方法,模型能够在不同风格和乐器配置下生成具有音乐美感的乐谱。

主要贡献

1. 提出了一种名为 NotaGen 的符号音乐生成模型,该模型实现了 LLM 训练范式,并在主观 A/B 测试中优于基线模型。

2. 提出了 CLaMP-DPO 强化学习方法,该方法通过直接偏好优化(DPO)算法,增强了符号音乐生成模型的音乐性和可控性,无需依赖人工标注或预定义奖励。

研究方法

1. 预训练:在 1.6M 首音乐上进行预训练,以捕捉基本的音乐结构和模式。

2. 微调:在 9K 首高质量的古典音乐上进行微调,以进一步增强生成质量。

3. 强化学习:使用 CLaMP-DPO 方法,通过直接偏好优化(DPO)算法,优化音乐生成模型。

4. CLaMP 2:一个多模态符号音乐信息检索模型,用于评估生成音乐的质量。

实验结果

实验结果表明,CLaMP-DPO 算法有效地提高了符号音乐生成模型的可控性和音乐性。在主观 A/B 测试中,NotaGen 模型在音乐美感方面优于基线模型。

未来工作

未来工作可以扩展这个框架,将其应用于更广泛的音乐类型,如爵士、流行和民族音乐,并探索其与新兴音乐生成模型的兼容性。