【ARXIV2105】Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks-CFANZ编程社区

【ARXIV2105】Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks

大部分内容来自论文作者国孟昊的B站视频，讲解的非常细致，强烈推荐

典型的 self-attention 计算方法如下图所示。 $Q$ 和 $K$ 相乘，使用 softmax 归一化，然一和 $V$ 相乘，然后得到输出的特征，这个大家应该都相当熟悉了。

在实际应用中，因为要计算query 和 key 之间的相似度，因此复杂度会比较高。因此，研究人员提出了一系列改进方法。

第一类是子空间方法。 如下图所示，研究人员发现，当 query 落在车上时，得到的结果中车的响应比较强（第1行）；当query落在人上时，行人的响应比较强（第2行）；落在道路上时，道路上的响应就比较强（第3行）。因此，可以把像素点聚为一些代表性的点，在代表性的点上计算相似性。典型的方法是 EMANet (ICCV 2019)，OCRNet（ECCV2020）。 还有一类方法是进行矩阵分解来降低计算复杂度， 典型的方法是 Performer。