Linformer 阅读笔记-CFANZ编程社区

Linformer 阅读笔记

彩虹_bd07

阅读 82

2022-07-27

背景，普通的self-attention
Q 是 n x d K 是 n x d V 是 n x d QK是 n x n 继而 (QK)V 是n x d 计算量最大的在于QK出n x n这步，固算Attention为O(n^2)复杂度

Linformer用两个 n x k 矩阵，将 K 和 V 映射为 k x d 则
Q 是 n x d K 是 k x d V 是 k x d QK是 n x k 继而 (QK)V 还是n x d

k如果足够小的话，证明就是O(n)复杂度算Attention了，
同时，文章从数学上证明了这样做的误差和原来相比很小。

精彩评论（0）