AfroXLMR-Comet: Multilingual Knowledge Distillation with Attention Matching for Low-Resource languages
作者: Joshua Sakthivel Raju, Sanjay S, Jaskaran Singh Walia, Srinivas Raghav, Vukosi Marivate
发布时间: 2025-02-27
来源: arxiv
研究方向: 低资源语言的自然语言处理
主要内容
该研究提出了一种名为AfroXLMR-Comet的轻量级多语言模型,通过知识蒸馏和注意力匹配技术,在保证性能的同时显著降低了模型的尺寸,使其更适用于资源受限的环境,特别是非洲语言。
主要贡献
1. 提出了一种混合蒸馏框架,结合了知识蒸馏和注意力匹配技术,有效传递教师模型的知识。
2. 设计了一个高度紧凑的多语言学生模型,显著减少了模型尺寸。
3. 引入了一种简化的注意力匹配机制,在降低计算开销的同时,有效传递知识。
4. 在五种非洲语言上进行了评估,证明了该方法的有效性。
5. 进行了实证分析,证明了知识传递在模型架构差异较大的情况下仍然是可能的。
研究方法
1. 知识蒸馏
2. 注意力匹配
3. 混合蒸馏框架
4. 模型压缩
5. 多语言模型
实验结果
AfroXLMR-Comet在模型尺寸减少了85%的同时,性能仍然保持在原始模型的85%左右。在非洲语言的 sentiment classification 任务上,实现了与小型模型相当的性能。
未来工作
未来工作将探索将该方法论扩展到其他语言家族,并研究领域特定的微调以进一步提高压缩多语言模型的可适应性。此外,将优化注意力传递机制,以在极端压缩设置中提高性能保留。