SECURA: Sigmoid-Enhanced CUR Decomposition with Uninterrupted Retention and Low-Rank Adaptation in Large Language Models
作者: Yuxuan Zhang
发布时间: 2025-02-27
来源: arxiv
研究方向: 自然语言处理,机器学习,持续学习
主要内容
该研究提出了一种名为SECURA的参数高效微调方法,旨在解决大型语言模型在微调过程中遇到的灾难性遗忘问题,同时提高微调性能。
主要贡献
1. 提出了一种新的参数高效微调方法SECURA,通过CABR分解和SigNorm归一化技术,有效缓解了灾难性遗忘问题。
2. SECURA在多个任务上取得了显著的性能提升,同时在保持预训练知识方面也表现出色。
3. 通过实验验证了SECURA在持续学习场景下的有效性,并在多个数据集和LLM上进行了测试。
研究方法
1. CABR分解:通过引入逆低秩适应矩阵,增强CUR-LoRA的性能。
2. SigNorm归一化:利用Sigmoid函数的渐变过渡特性,动态调整参数,防止灾难性遗忘。
3. 合并策略:提出两种合并方法(M1和M2),在保持基本模型权重不变的同时,更新微调参数。
实验结果
SECURA在多个任务上取得了显著的性能提升,平均在MCQ任务上提高了3.63%,在QA任务上提高了2.56%。在持续学习场景下,SECURA保持了超过70%的准确率,优于其他方法如经验回放、序列学习和EWC等。
未来工作
未来工作将探索SECURA在更大规模LLM上的应用,并优化归一化层以适应实时应用。