NotaGen: Advancing Musicality in Symbolic Music Generation with Large Language Model Training Paradigms

作者: Yashan Wang, Shangda Wu, Jianhuai Hu, Xingjian Du, Yueqi Peng, Yongxin Huang, Shuai Fan, Xiaobing Li, Feng Yu, Maosong Sun

发布时间: 2025-02-27

来源: arxiv

研究方向: 音乐生成与音乐信息检索

主要内容

本文研究了如何利用大型语言模型（LLM）技术来生成高质量的古典乐谱。通过预训练、微调和强化学习等方法，模型能够在不同风格和乐器配置下生成具有音乐美感的乐谱。

1. 提出了一种名为 NotaGen 的符号音乐生成模型，该模型实现了 LLM 训练范式，并在主观 A/B 测试中优于基线模型。

2. 提出了 CLaMP-DPO 强化学习方法，该方法通过直接偏好优化（DPO）算法，增强了符号音乐生成模型的音乐性和可控性，无需依赖人工标注或预定义奖励。

1. 预训练：在 1.6M 首音乐上进行预训练，以捕捉基本的音乐结构和模式。

2. 微调：在 9K 首高质量的古典音乐上进行微调，以进一步增强生成质量。

3. 强化学习：使用 CLaMP-DPO 方法，通过直接偏好优化（DPO）算法，优化音乐生成模型。

4. CLaMP 2：一个多模态符号音乐信息检索模型，用于评估生成音乐的质量。

实验结果表明，CLaMP-DPO 算法有效地提高了符号音乐生成模型的可控性和音乐性。在主观 A/B 测试中，NotaGen 模型在音乐美感方面优于基线模型。

未来工作可以扩展这个框架，将其应用于更广泛的音乐类型，如爵士、流行和民族音乐，并探索其与新兴音乐生成模型的兼容性。