AfroXLMR-Comet: Multilingual Knowledge Distillation with Attention Matching for Low-Resource languages

作者: Joshua Sakthivel Raju, Sanjay S, Jaskaran Singh Walia, Srinivas Raghav, Vukosi Marivate

发布时间: 2025-02-27

来源: arxiv

研究方向: 低资源语言的自然语言处理

主要内容

该研究提出了一种名为AfroXLMR-Comet的轻量级多语言模型,通过知识蒸馏和注意力匹配技术,在保证性能的同时显著降低了模型的尺寸,使其更适用于资源受限的环境,特别是非洲语言。

主要贡献

1. 提出了一种混合蒸馏框架,结合了知识蒸馏和注意力匹配技术,有效传递教师模型的知识。

2. 设计了一个高度紧凑的多语言学生模型,显著减少了模型尺寸。

3. 引入了一种简化的注意力匹配机制,在降低计算开销的同时,有效传递知识。

4. 在五种非洲语言上进行了评估,证明了该方法的有效性。

5. 进行了实证分析,证明了知识传递在模型架构差异较大的情况下仍然是可能的。

研究方法

1. 知识蒸馏

2. 注意力匹配

3. 混合蒸馏框架

4. 模型压缩

5. 多语言模型

实验结果

AfroXLMR-Comet在模型尺寸减少了85%的同时,性能仍然保持在原始模型的85%左右。在非洲语言的 sentiment classification 任务上,实现了与小型模型相当的性能。

未来工作

未来工作将探索将该方法论扩展到其他语言家族,并研究领域特定的微调以进一步提高压缩多语言模型的可适应性。此外,将优化注意力传递机制,以在极端压缩设置中提高性能保留。