SECURA: Sigmoid-Enhanced CUR Decomposition with Uninterrupted Retention and Low-Rank Adaptation in Large Language Models
作者: Zhang Yuxuan, Li Ruizhe
发布时间: 2025-02-27
来源: arxiv
研究方向: 大型语言模型(LLM)的持续学习和参数高效微调
主要内容
本文提出了SECURA,一种基于Sigmoid增强的CUR分解低秩自适应(LoRA)的参数高效微调方法,旨在减轻LLM在微调过程中的灾难性遗忘问题,同时提高微调性能。
主要贡献
1. 提出了一种新的微调方法SECURA,通过SigNorm规范化和CABR分解来减轻灾难性遗忘。
2. 引入了SigNorm规范化技术,通过Sigmoid函数的渐变过渡特性动态调整参数,以防止灾难性遗忘。
3. 通过CABR分解增强低秩自适应(LoRA)的性能,提高了模型的知识保留能力。
4. 在多个数据集和LLM上进行了实验,证明了SECURA在提高微调性能和知识保留方面的优越性。
研究方法
1. SigNorm规范化
2. CABR分解
3. 低秩自适应(LoRA)
4. 持续学习
5. 参数高效微调
实验结果
在多个数据集和LLM上进行的实验表明,SECURA在微调性能和知识保留方面优于标准的LoRA和其它LoRA变体。在多个MCQ和QA任务上,SECURA实现了平均3.63%的微调性能提升,并且在持续学习场景中保留了超过70%的基础知识。
未来工作
未来工作将探索将SECURA扩展到更大规模的LLM,并优化SigNorm规范化层以适应实时应用。