Revisiting Kernel Attention with Correlated Gaussian Process Representation

作者: Long Minh Bui, Tho Tran Huu, Duy Dinh, Tan Minh Nguyen, Trong Nghia Hoang

发布时间: 2025-03-03

来源: arxiv

研究方向: 机器学习,自然语言处理,计算机视觉

主要内容

本文提出了一种新的Transformer模型,名为Correlated Gaussian Process Transformer (CGPT),用于对Transformer模型进行不确定性校准。CGPT通过使用相关高斯过程(CGP)来模拟Transformer中的自注意力机制,从而提高了模型的表达能力和不确定性校准能力。

主要贡献

1. 提出了一种新的Transformer模型CGPT,通过使用CGP来模拟自注意力机制,允许注意力矩阵不对称,从而提高模型的表达能力。

2. 推导了一种CGP的稀疏近似,以减少计算成本并提高模型的可扩展性。

3. 在多个基准任务上进行了实验,证明了CGPT及其稀疏近似在性能和不确定性校准方面优于现有的基于Gaussian Process的Transformer模型。

研究方法

1. 使用CGP来模拟Transformer中的自注意力机制。

2. 推导CGP的稀疏近似,以减少计算成本。

3. 使用Log Marginal Likelihood作为损失正则化项,以平衡模型性能和不确定性校准。

实验结果

CGPT在多个基准任务上取得了优于现有Gaussian Process Transformer模型的表现,特别是在图像分类和语言处理任务上。实验结果表明,CGPT能够有效地校准模型的不确定性,并提高模型的鲁棒性。

未来工作

探索使用随机特征或稀疏Gaussian Process来进一步提高CGPT的效率。