AfroXLMR-Comet: Multilingual Knowledge Distillation with Attention Matching for Low-Resource languages

作者: Joshua Sakthivel Raju, Sanjay S, Jaskaran Singh Walia, Srinivas Raghav, Vukosi Marivate

发布时间: 2025-02-27

来源: arxiv

研究方向: 低资源语言的自然语言处理

主要内容

该研究提出了一种名为AfroXLMR-Comet的轻量级多语言模型，通过知识蒸馏和注意力匹配技术，在保证性能的同时显著降低了模型的尺寸，使其更适用于资源受限的环境，特别是非洲语言。

1. 提出了一种混合蒸馏框架，结合了知识蒸馏和注意力匹配技术，有效传递教师模型的知识。

2. 设计了一个高度紧凑的多语言学生模型，显著减少了模型尺寸。

3. 引入了一种简化的注意力匹配机制，在降低计算开销的同时，有效传递知识。

4. 在五种非洲语言上进行了评估，证明了该方法的有效性。

5. 进行了实证分析，证明了知识传递在模型架构差异较大的情况下仍然是可能的。

1. 知识蒸馏

2. 注意力匹配

3. 混合蒸馏框架

4. 模型压缩

5. 多语言模型

AfroXLMR-Comet在模型尺寸减少了85%的同时，性能仍然保持在原始模型的85%左右。在非洲语言的 sentiment classification 任务上，实现了与小型模型相当的性能。

未来工作将探索将该方法论扩展到其他语言家族，并研究领域特定的微调以进一步提高压缩多语言模型的可适应性。此外，将优化注意力传递机制，以在极端压缩设置中提高性能保留。