EuroBERT: Scaling Multilingual Encoders for European Languages
作者: Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Duarte M. Alves, André Martins, Ayoub Hammal, Caio Corro, Céline Hudelot, Emmanuel Malherbe, Etienne Malaboeuf, Fanny Jourdan, Gabriel Hautreux, João Alves, Kevin El-Haddad, Manuel Faysse, Maxime Peyrard, Nuno M. Guerreiro, Patrick Fernandes, Ricardo Rei, Pierre Colombo
发布时间: 2025-03-10
来源: arxiv
研究方向: 自然语言处理 (NLP) 与多语言编码器
主要内容
该研究提出了 EuroBERT,一种针对欧洲语言和广泛使用的全球语言的多语言编码器家族。EuroBERT 通过结合最新的架构改进和大规模多语言数据集,在检索、回归和分类等任务中取得了优异的性能。
主要贡献
1. 提出了 EuroBERT,一个基于最新架构的多语言编码器家族。
2. 在多语言能力、数学和编码等任务中实现了优异的性能。
3. 公开发布了 EuroBERT 模型,包括中间训练检查点和训练框架。
4. 通过系统消融实验分析了设计决策的影响。
5. 发布了包含 210m、610m 和 2.1B 参数的三个模型,以方便未来的研究。
研究方法
1. 基于双向编码器模型。
2. 结合了来自解码器模型的架构改进。
3. 使用大规模多语言数据集进行训练,包括代码和数学数据。
4. 采用掩码语言模型 (MLM) 目标进行预训练。
5. 采用两阶段训练流程,包括预训练和退火阶段。
6. 进行系统消融实验以分析设计决策的影响。
7. 使用多种数据集和任务进行评估,包括检索、分类和回归。
实验结果
EuroBERT 在多语言检索、分类和回归任务中优于现有的替代方案,如 XLM-RoBERTa 和 mGTE-MLM-base。在代码和数学任务中,EuroBERT 的表现尤为出色。此外,EuroBERT 在长上下文长度下也能保持良好的性能。
未来工作
未来工作将集中在提高跨语言能力,探索其他训练信号,以及进一步优化任务性能的平衡。