YuE: Scaling Open Foundation Models for Long-Form Music Generation

作者: Ruibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xinrun Du, Zhen Ye, Tianyu Zheng, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi Li, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, Xiangzhou Wang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo

发布时间: 2025-03-12

来源: arxiv

研究方向: 音乐生成与理解

主要内容

YuE 是一个基于 LLaMA2 架构的开源基础模型系列,旨在解决长形式音乐生成问题,特别是歌词到歌曲的生成问题。通过创新的预训练和推理技术,YuE 能够生成高质量的、长达五分钟的音乐,同时保持歌词的连贯性、音乐结构的完整性和引人入胜的歌声。

主要贡献

1. 提出了一种基于 LLaMA2 架构的开源基础模型系列 YuE,用于长形式音乐生成。

2. 设计了双音素策略,分别对不同的音频轨道(人声、伴奏)进行建模,提高了模型对低人声比率的鲁棒性。

3. 提出了结构渐进式条件化策略,使歌曲级歌词跟随和结构控制成为可能。

4. 重新设计了音乐生成中的上下文学习技术,实现了灵活的风格转换和双向内容创作。

5. 采用了多任务、多阶段预训练策略,提高了模型的收敛性和泛化能力。

6. 在音乐性和人声敏捷性方面,YuE 与专有系统相比表现出色,并支持多语言歌词跟随。

7. 在音乐理解任务上,YuE 的学习表示能够很好地工作,其结果在 MARBLE 基准测试中与最先进的方法相当。

研究方法

1. Track-Decoupled Next-Token Prediction:一种双音素策略,分别对不同的音频轨道(人声、伴奏)进行建模。

2. Structural Progressive Conditioning:一种渐进式条件化策略,用于长形式音乐生成。

3. Music In-Context Learning:一种新颖的上下文学习框架,用于音乐生成。

4. Multitask Multiphase Pre-training:一种多任务、多阶段预训练策略,提高了模型的收敛性和泛化能力。

5. Semantic-Acoustic Fused Codec:一种语义-声学融合的编解码器,用于音频词汇表。

6. Light-weight Upsampling Module:一种轻量级上采样模块,用于提高音频质量。

实验结果

在人类评估中,YuE 在音乐性和人声敏捷性方面与专有系统相比表现出色。在自动评估中,YuE 在音乐性和人声敏捷性方面也表现出色,并支持多语言歌词跟随。在音乐理解任务上,YuE 的学习表示能够很好地工作,其结果在 MARBLE 基准测试中与最先进的方法相当。

未来工作

进一步提高音频质量,包括声学细节和混音效果。引入音乐知识,如和弦进程和乐器理论。集成更深层次的韵律和情感控制。扩展多语言和跨文化功能。探索音乐教育、可访问性和治疗等领域的应用。