TAIL: Text-Audio Incremental Learning
作者: Yingfei Sun, Xu Gu, Wei Ji, Hanbin Zhao, Hao Fei, Yifang Yin, Roger Zimmermann
发布时间: 2025-03-07
来源: arxiv
研究方向: 多模态信息检索与增量学习
主要内容
本文提出了一种名为Text-Audio Incremental Learning (TAIL)的新型增量学习任务,旨在解决文本和音频检索中模型参数效率低和灾难性遗忘的问题。为此,研究者们提出了一种名为PTAT的参数高效框架,该框架利用提示调优和音频-文本相似度与特征蒸馏模块来提高模型性能和泛化能力。
主要贡献
1. 引入了Text-Audio Incremental Learning (TAIL)任务,针对文本和音频检索中的增量学习问题。
2. 开发了Prompt Tuning for Audio-Text Incremental Learning (PTAT)方法,通过参数高效的方式解决了灾难性遗忘问题。
3. 在多个音频-文本数据集上进行了实验,证明了PTAT方法在性能和参数效率方面的优越性。
研究方法
1. Prompt Tuning:通过添加可学习的提示向量来优化模型参数,从而实现参数高效的学习。
2. Audio-Text Prompt Generation (ATPG):生成音频和文本提示,以有效地连接两种模态。
3. Audio-Text Similarity and Feature Distillation (ATSFD):通过特征蒸馏和相似度蒸馏来保留和利用先前学习到的知识,从而减轻灾难性遗忘。
实验结果
在AudioCaps、Clotho、BBC Sound Effects和Audioset数据集上进行的实验表明,PTAT方法在性能和参数效率方面均优于基线方法。与全参数微调方法相比,PTAT模型仅需要2.42%的参数,却实现了4.46%更高的性能。
未来工作
未来可以进一步研究以下方面:探索更有效的提示生成方法,改进特征蒸馏和相似度蒸馏模块,以及将PTAT方法应用于其他增量学习任务。