Revisiting Kernel Attention with Correlated Gaussian Process Representation
作者: Long Minh Bui, Tho Tran Huu, Duy Dinh, Tan Minh Nguyen, Trong Nghia Hoang
发布时间: 2025-03-03
来源: arxiv
研究方向: 机器学习,自然语言处理,计算机视觉
主要内容
本文提出了一种新的Transformer模型,名为Correlated Gaussian Process Transformer (CGPT),用于对Transformer模型进行不确定性校准。CGPT通过使用相关高斯过程(CGP)来模拟Transformer中的自注意力机制,从而提高了模型的表达能力和不确定性校准能力。
主要贡献
1. 提出了一种新的Transformer模型CGPT,通过使用CGP来模拟自注意力机制,允许注意力矩阵不对称,从而提高模型的表达能力。
2. 推导了一种CGP的稀疏近似,以减少计算成本并提高模型的可扩展性。
3. 在多个基准任务上进行了实验,证明了CGPT及其稀疏近似在性能和不确定性校准方面优于现有的基于Gaussian Process的Transformer模型。
研究方法
1. 使用CGP来模拟Transformer中的自注意力机制。
2. 推导CGP的稀疏近似,以减少计算成本。
3. 使用Log Marginal Likelihood作为损失正则化项,以平衡模型性能和不确定性校准。
实验结果
CGPT在多个基准任务上取得了优于现有Gaussian Process Transformer模型的表现,特别是在图像分类和语言处理任务上。实验结果表明,CGPT能够有效地校准模型的不确定性,并提高模型的鲁棒性。
未来工作
探索使用随机特征或稀疏Gaussian Process来进一步提高CGPT的效率。