ViT：过去一年，CV 最有影响力的工作

推翻了 2012 Alexnet 提出的 CNN 在 CV 的统治地位
有足够多的预训练数据，NLP 的 Transformer 搬运到 CV，效果很好
打破 CV 和 NLP 的壁垒，给 CV、多模态挖坑

ViT效果有多好？

CV 任务刷榜

paperwithcode网站霸榜 ImageNet （基于 ViT）和 COCO ,目标检测（Swin Transformer ICCV 21 best paper：多尺度的 ViT ）的模型

图 1 的四种情况 ViT 都能处理

遮挡、数据分布的偏移（纹理的去除）、鸟头部+对抗的patch、图片打散重新排列组合

1 标题

02:45

An image is worth 16*16 words

每一个方格都是 16 * 16 大小，图片有很多 16 * 16 方格 patches --> an image is worth 16 * 16 words

Transformers for image recognition at scale

transformer 去做大规模的图像识别

2 摘要

03:15

Transformer 在 NLP 是基本操作，i.e., BERT, GPT3, T5, 但 transformer 在 CV 的应用有限。

CV 里的 attention 是怎么用的呢？

attention + CNN, or attention 替换 CNN components 但依然保持 CNN 整体结构。

如何理解 CNN 整体结构不变？

ResNet 50 有 4 个 stages (res2 res3 res4 res5), stage 不变，attention 取代每一个 stage 每一个 block 里的这个操作。

本文怎么看 CV 里的 attention?

attention 不用和 CNN 绑在一起，和我 transformer 组队，在 CV 领域大杀四方。

esp, 大规模数据集做预训练，mid-sized or small 数据集做微调，ViT SOTA

ViT fewer computational resources to train, really?

少的训练资源 == TPUv 3 + 2500 天。

"fewer" 相对来说

3 引言

05:07

self-attention 架构， esp Transformers，是 NLP 必选模型。主流方式是 BERT 提出的，大规模数据集预训练，在特定领域的小数据集做微调。 Transformer 的计算高效和可扩展性，1000亿参数都还没有性能饱和的现象。

i.e., MT-N;P 5300亿参数，SOTA，也没有性能饱和的现象。

Transformer 应用在 CV 有难点吗？

计算像素的 self-attention，序列长，维度爆炸

Trnasformer 的计算复杂度是序列长度 n 的平方 O（n^2）

224 分辨率的图片，有 50176 个像素点，（2d 图片 flatten）序列长度是 BERT 的近 100 倍。

呼应摘要+文献：CNN 在 CV 领域火， Transformer, self-attention 在 NLP 领域火。CV 如何用 attention 呢？

CNN 结构 + self-attention or attention 替代卷积

CVPR Wang et al. 2018, Local Network, 网络中的特征图输入 Transformer

ResNet 50 最后一个 stage, res4 的 feature map 14 * 14， 196

降低序列长度的方式：用特征图做 transformer 输入（Wang et al 2018）, replacing the convolutions entirely (Ramachandran et al., 2019 stand-alone attention 孤立自注意力; Wang et al., 2020 axial attention 轴注意力)

stand-alone attention 孤立自注意力

用 local window 局部小窗口控制 transformer 的计算复杂度，有点像卷积，卷积也有 locality，局部窗口卷积。

axial attention 轴注意力 --> 2 个 1d 顺序操作，降低计算复杂度

图片的序列长度 n = H * W

2d 矩阵拆分为 2个1d 向量，先在 H 高度 dimension 做一次 self-attention，再 W 宽度 dimension 做一次 self-attention

replacing the convolutions entirely 好不好呢？

理论高效，但硬件无法加速 --> 此类模型都还没有太大。

本段（第二段）总结：在大规模的图像识别上，ResNet 还是效果最好的。

本文 ViT 的工作是什么？

现状：attention 已经在 CV 领域有应用，甚至也有 attention 替代卷积的操作

讲故事的角度： Inspired by the Transformer scaling 可扩展性 success in NLP, we experiment with applying a standard Transformer directly to images, with the fewest possible modifications.

标准 Transformer 直接应用于图片，做最少的修改，不做任何针对视觉任务的特定的改变。

The fewest possible modifications 是什么呢？

把图片划分成很多 patches，每个 patch 元素是 16 * 16，序列长度 14 * 14 = 196个元素

每一个 patch 经过一个 FC layer(fully connected layer)得到一个 linear embedding，patches 的 linear embeddings 是 Transformer 的输入。

一个 224 * 224 图片变成一个 196 个的 16 * 16 图片块（words in NLP）。

为什么 transformer 的训练是 supervised fashion？

NLP 的 Transformer 无监督训练 by language model LM or mask language model MLM；CV 任务的 benchmark 使用有监督训练。

ViT 把 CV 任务当成 NLP 任务，模型使用的是 BERT, Transformer encoder 简洁框架。Transformer 在视觉也有很好的效果。

Transformer in CV，之前有人做吗？

ICLR 2020 从输入图片里抽取 2 * 2 patches。 2 * 2 size enough：CIFAR-10 32 * 32 图片，16 * 16 会过大。抽好 patch 之后，在 patches 上做 self-attention。 --> 技术上的 Vision Transformer

ViT 和 ICLR 2 * 2 patches 的区别？

ViT证明了大规模数据集预训练（NLP 常用）之后的 Transformer，不需要做针对视觉任务的修改，比最好的 CNNs 效果差不多 or 甚至更好。
2 * 2 patches applicable only to small-resolution images, ViT handles medium-resolution images as well.
ViT 告诉大家，Transformer 在 vision 领域能拓展到有多好。large 数据集 + large 模型，transformer 能否取代 CNN 地位？
弹幕的 money is all you need 哈哈哈

引言的最后：

最想说的结论 or 最想展示的结果：卖点，不用看完整篇论文，就知道此篇论文的贡献。

ViT 任何情况都很强吗？

mid-sized datasets ImageNet without strong regularization，ViT 比 ResNet of comparable size 弱几个点。

Why 弱？ expected

Transformer 比 CNN 少 inductive biases 归纳偏置

inductive biases 归纳偏置：先验知识 or 提前的假设

CNN 的 inductive biases 是 locality 和平移等变性 translation equaivariance（平移不变性 spatial invariance）。

locality: CNN用滑动窗口在图片上做卷积。假设是图片相邻的区域有相似的特征。i.e., 桌椅在一起的概率大，距离近的物品相关性越强。

translation equaivariance：f (g(x)) = g( f(x) )

f 和 g 函数的顺序不影响结果。

f：卷积 g：平移; 无论先做平移 g 还是先做卷积 f , 最后结果一样。

CNN 的卷积核像一个 template 模板，同样的物体无论移动到哪里，遇到了相同的卷积核，它的输出一致。

CNN 有 locality 和 translation equivariance 归纳偏置，--> CNN 有很多先验信息 --> 需要较少的数据去学好一个模型。

Transformer 没有这些先验信息，只能从图片数据里，自己学习对视觉世界的感知。

怎么验证 Transformer 无 inductive bias 的假设？

在 1400万(ImageNet-21K) - 3000 万(JFT-300)得到图片数据集上预训练 trumps inductive bias, ViT +足够训练数据，CV SOTA。

VTAB 融合了 19 个数据集，检测模型的稳健性，ViT的 robustness 也很好。

19:23

引言总结：

第一段：Transformer 在 NLP 扩展的很好，没有因为大模型和大数据集而饱和，performance 一直有提升，Transformer 在 CV 里能不能也有大幅度的提升呢？

第二段：前人工作。这么好的 idea 有哪些人做过呢？要讲清楚自己的工作和 related works 的区别

之前的工作是 CNN + attention 或者 attention 替代 convolutions，没有工作将 transformer 用到 CV 领域，没有得到很好的扩展效果。

第三段：Vision Transformer 是 standard Transformer with the fewest possible modifications

对图片的最少修改是什么？

图片变成 16 * 16 的像素块 patches，经过一个 fc layer 得到的 linear embeddings 输入 transformer

ViT 融合了 CV 和 NLP 领域。

第四+五段：show 结果

足够多的数据集，ViT 能 SOTA

4 结论

explored the direct application of Transformers to image recognition. 直接用 NLP 的 Transformer 来处理图片。

和其它 self-attention in CV 的工作不同：除了将图片转成 16 * 16 patches + 位置编码之外，没有额外引入图像特有的 inductive bias

没有图片的 inductive bias 的好处是什么？

不需要对 vision 领域的了解，不需要 domain knowledge，直接把图片理解成 a sequence of patches, i.e., 一个句子里的很多单词。

An image is worth 16 * 16 words.

直接用 NLP 里的 Transformer encoder， simple yet scalable，大规模预训练数据集，效果非常好。

ViT 效果有多好？

image classification SOTA, relatively cheap to pre-train

ViT 没有解决的问题？

文章挖坑：新问题 or 新模型

ViT 挖坑：新模型 ViT

future directions: 新问题 —— CV 除了 image classfication 其他的任务，行不行呢？分割、检测

DETR (Carion et al. 2020) 目标检测的力作，改变了目标检测出框的方式。ViT 做其它 CV 任务应该效果也很好。

2020年 12 月(ViT 1.5月之后)

ViT-FRCNN 检测 detection

SETR 分割 segmentation （CVPR 论文 11.15完成写作投稿）

（3个月后）Swin Transformer 融合 Transformer 和多尺度设计

Transformer 是 CV 领域的一个通用的骨干网络 backbone

另外一个未来工作方向，自监督的预训练方式。

NLP 大的 transformer 模型使用自监督预训练，ViT有 initial experiments 证明自监督预训练也可以，但和有监督的训练有差距 still large gap。

把 ViT 变得很大，would likely lead to improved performance。scaling ViT, ViT-G, ImageNet 90 +%

ViT 挖坑：

视觉领域 CV
多模态，一个 transformer 处理 CV 和 NLP

5 相关工作

24:38

Transformer 在 NLP 领域的应用：BERT, GPT

Transformer 先在大规模语料库上做预训练，再根据具体的任务数据集进行微调。

BERT: denosing mask挖词、完形填空，把masked的词预测出来

GPT: language modelling, 预测下一个词 next word prediction

完形填空 or 预测下一个词，人为设定。语料句子是完整的，去掉某些词（完形填空） or 最后词（预测下一个词） --> 自监督的训练方式。

self-attention 在视觉领域的应用

25:38

self-attention to each pixel：❌

224 * 224 image: O(n^2 = 50176)

1k, 4k image: 维度爆炸

self-attention to each image with approximations：

不用整张图，只用 local neighborhoods，降低序列长度

sparse transformer

全局注意力的近似
只对稀疏的点做注意力

scale attention by applying attention in blocks of varying size

把自注意力用到不同大小的 blocks
in the extreme case only along individual axes 极端情况，只关心轴， axial self-attention，横轴 + 纵轴

小结：以上 self-attention + CV 效果不错，但工程实现加速很难。可在 cpu gpu跑，但大规模训练不行。

和 ViT 最相似的工作：

ICLR 2020 2 * 2 patches for CIFAR-10 32 * 32 图片

ViT 胜在哪里: 更大的 patches 16 *16 + 更大的训练数据集

CV 中检测、分类、视频处理、多模态 self-attention with CNNs

另一个相似工作：image GPT

GPT 是 NLP 的生成模型，image GPT 无监督预训练，生成模型。

image GPT 也用了 transformer 图片（降低分辨率和 color space）。用训练好的 image GPT or 直接把 image GPT 当成特征提取器， ImageNet 准确率 72%；ViT ImageNet 准确率 88.5%

ps：最近爆火的 MAE

在 BEiT 或 MAE 论文之前，生成式网络在 CV 比判别式网络弱很多。

MAE 生成式模型在 ImageNet-1k 做训练，比判别式模型好。分类 ✔，目标检测 ✔ （transfer learning）

还有其它和 ViT 相似的工作吗？

用比 ImageNet 还大的数据集做预训练，大力出奇迹
Sun et al 2017 JFT-300M 数据集，CNN 的效果随数据集增加而提升
Djolonga et al 2020 研究大数据集预训练迁移到小数据集的效果
在 ImageNet-21K 或 JFT-300M 数据集做预训练，迁移到 ImageNet 或 CIFAR-100 效果怎么样

本文 ViT 和这些相似论文的关系？

ViT 关注 ImageNet-21K 或 JFT-300M 数据集，不训练 ResNet，训练 Transformer

Related work 写作总结：

方方面面相关的都写到了，也列举了非常相似的工作 ICLR 2020 2*2 patches, image GPT 生成模型，大数据集 BIT 相关的文章

Related work 目的：

让读者知道在你的工作之前，别人做了哪些工作，你跟他们的区别在哪里

related work 章节的详细不会降低论文的创新性，反而加分，让整个文章变得更简单易懂。

6 ViT模型

30:05

ViT 尽可能使用 original Transformer，享受 Transformer efficient implementations。

NLP 中 Transformer 很火，有很多 Transformer 的高效实现

3.1 Vision Transformer 模型图

图1：Model overview

好图：以图读论文，讲解 ViT 直接复制

31:13

Input: 1 张图

Process: 九宫格 9 patches --> Flattened Patches (3 * 3 --> 1 * 9 拍平) --> Linear Projections ---> Patch embedding

Why need position embedding?

self-attention 所有元素两两算自注意力，和顺序位置无关。但图片的 patches 是有顺序的，+ position embedding

Patch embedding + position embedding == token 包含图片 patch 信息和 patch 在原图中的位置信息。

ViT 对图片的操作：划分 patches，flatten patches 的线性投影 + patches 的位置信息，得到输入 transformer 的 tokens

得到 tokens 之后，对 visual tokens 进行 NLP 操作：

tokens 传入 Transformer encoder，得到很多输出。

Q: 每一个 token 都有输出，用哪个输出分类呢？[CLS]

借鉴 BERT， extra learnable {class} embedding --> [CLS], a special classification token, * in figure 1.

[CLS] 也有 position embedding, 0(永远是0)

Q: Why [CLS] works？self-attention O(n^2)

self-attention in transformer encoder，所有的 tokens 在做两两的交互信息。因此，[CLS] 也会和所有的图片 patches 的 token 交互，从而 [CLS] 从图片 patches + position 的 embedding 学到有用信息，最后用 [CLS] 做分类判断。

Q: 从 [CLS] 怎么得到最后的分类？通用MLP Head

[CLS] 输入一个通用的 MLP Head，得到 Class，cross-entropy 损失函数训练模型。

Q: ViT 用了标准的 transformer 结构，ViT的特点是什么？

图片 patches 化 + position embedding 转化为 tokens

ViT 前向过程

Vision 问题变成 NLP 问题

33:29

图片 X： 224 * 224 * 3 (RGB, 3 channels)

patches 数 N： 224 ^ 2 / 16 ^ 2 = 14 ^ 2 = 196

每一个 patch 的维度：16 * 16 * 3 (RGB, 3 channels) = 768

Linear Projection 全连接层 E: 768( 不变，patch 计算而来 ) * D(embedding_dim) 768 或更大

图片 X * E = patches (196 patches 个数 * 768 每个 patch 的维度) * E ( 768 * D ) = 196 * D (768)

Vision to NLP done!

a 2d image --> a sequence 1d tokens

Q: 进入 transformer encoder 的序列长度？

196 * 768(图片对应的 tokens) 拼接 concatenate [CLS] token (1 * 768) = 197 * 768

Q: position embedding 怎么加 patch embedding？sum()

图1 的 1-9 不是真正使用的 position embedding，实际的 position embedding 表，1 - 5 行代表图1 的 1 - 5 值。

每行向量的维度是 1 * 768

相加 sum：

patch embedding（197 * 768） + position embedding （(1 CLS + 196 patches) * 768）= （197 * 768）

ViT base: 12 heads

MLP：放大 4 倍，再缩小到原维度大小

Transfomer encoder 输入输出维度一致，可以直接叠加 L 个

3.1 Vision Transformer正文

38:22

公式的具体值计算，参考上一小节。

有了具体含义的公式字符，也不那么可怕了呢 o(*￣▽￣*)ブ

ViT 用的是 BERT 1d position embedding，图片 2d aware position embedding 结果也差不多。

D.3 Head type and class token 作者的消融实验

ViT 除了标准的 transformer，关键部分是怎么对图片进行预处理和怎么对图片最后的输出进行后处理。

40:16

class token：证明标准的 transformer 做视觉，没问题！

控制和 NLP 的差异：使用 BERT 的 CLS，CLS 在 NLP 理解为一个全局的对句子理解的特征；ViT 的 CLS 理解为一个图像的整体特征。

CLS token + MLP (tanh acitvation) == 分类

CV 通常的全局特征：i.e., Res50

feature map (14 * 14) --> GAP globally average-pooling 全局平均池化 --> a flatten vector 全局的图片特征向量 --> MLP 分类

类似的，Transformer 的输出元素 + GAP 可以用做全局信息 + 分类吗？ Ok.

CV 的 CLS GAP 和 NLP 的 CLS 效果差异不大。

CLS-Token 和 GAP 的适用参数不一样。

位置编码： 1d 2d relative 无所谓

43:18

1d：NLP 1, 2, 3, ..., 9 D

2d：D / 2 * D / 2

11 12 13

21 22 23

31 32 33

relative: offset

绝对距离转相对距离，1 - 9 和 -4, ..., 0, ..., 4

表 8 位置编码的效果

45:02

为啥都是 0.64 左右，无所谓？

ViT 直接作用于 14 * 14 patches，而不是 224 * 224 像素。较少数量的 patches 之间的相对位置信息，容易学到。

3.1 ViT 正文 CLS continued

45:55

CLS 可用 GAP global average pooling 替换

1d position embedding 可用 2d or relative 替换

ViT 对齐标准的 transformer，选用 NLP 里常用的 CLS 和 1d position embedding

Appendix: Transformer multi-head 解释，i.e., 卷积解释 in CNN papers

公式总结 ViT 的前向传播过程

46:31

Inductive bias

47:60

CNN 的 inductive bias: locality 局部性, translation equivalence 平移等变性。在 CNN 模型每一层都有所体现，==》模型的先验知识从头到尾，贯穿整个模型。

ViT 比 CNN 的 inductive bias 少, only MLP

In ViT, only MLP layers are local and translationally equivariant, while the self-attention layers are global.

ViT 的 inductive bias in images：

图片切成 patches；+ position embedding（随机初始化，没有携带 2d 位置信息）

ViT 的 patches 块的 2d 位置信息 + spatial relations 图像块之间的场景信息，都需要重新学。 ==》 ViT 没有很多 inductive bias ==》中小型数据集训练 ViT 效果不如 CNN

Hybrid architecture

Transformer: 全局建模能力强

CNN: data-efficient 不用那么多训练数据

前 CNN + 后 Transformer --> Hybrid archtecture

不同的图片预处理方式：不划分 patches，采用 CNN (Res50 的 feature map 14 * 14 = 196)，过全连接层 E Linear projections 得到图片的 embedding

ViT 的图片预处理方式：

把一张图划分成 patches，直接过全连接层 fc

3.2 Fine-tuning and higher resolution

50:20

微调时用大图片尺寸 i.e., 256 * 256， 320 * 320 而不是 224 * 224，效果更好

Q: 预训练好的 ViT 可以在更大尺寸的图片上为条码？

if patch size 不变 16 * 16，更大尺寸的图片 --> 序列长度的增加 i.e., 14 * 14 --> 20 * 20 in 320 * 320 image

Transformer 理论上，可以处理任意长度。

But，提前训练好的 position embedding 可能失效

1 - 9 的九宫格图片 patches 位置编码 --> patches 增多，1 - 25 位置编码

Q: patches 数增多，如何使用已预训练好的位置编码呢？

2d 插值，torch 的 interpolate 函数实现；但也不是任意长度增加都能保持效果。

256 --> 512 --> 768 长度的增加，直接使用差值，最后效果掉点。（采样定理）

插值 interpolate 临时解决方案，ViT 微调时的一个局限。

ViT 用了图片 2d 结构的 inductive bias 地方：resolution adjustment 尺寸改变和 patch extraction 抽 patches

7 实验

52:20

对比 ResNet, ViT, Hybrid ViT (CNN 特征图，不是图片直接 patch 化) 的 representation learning capabilities 表征学习能力。

为了了解每个模型预训练好到底需要多少数据，在不同大小的数据集上预训练，然后在很多 benchmark tasks 做测试。

考虑模型预训练的计算成本时，ViT performs very favourably 表现很好， SOTA + fewer resource 训练时间更少

ViT 的自监督训练，可行，效果也还不错，有潜力；一年之后，MAE 用自监督训练 ViT 效果很好。

4.1 Setup

datasets:

53:02

ImageNet-1K: 1000 classes, 1.3M images

ImageNet-21K: 21000 classes, 14M images

JFG-300: 303M images Google 不开源

下游任务：分类 CFIAR etc.

Model variants

ViT Base, Large, Huge

Layers, Hidden size D, MLP size, Heads 相应增加

模型变体 = (Base, Large, Hugh) + (patch size 表示)

ViT-L/16 使用 Large 参数和 patch 16 * 16 输入

Q: Why patch size in name of model variants?

ViT 模型的 patch size 变化时, i.e., 16 * 16 --> 32 * 32 or 8 * 8, 模型的位置编码会变化

transformer 输入的序列长度与 patch size 成反比
patch size 越小，一张图片的 patches 数越多，训练越贵 because of 序列长度的增加

结果

54:50

表 2

ViT-H/4 秀肌肉刷榜

和 CNN 的工作 BiT-L, Noisy Student 做对比

BiT-L: CNN比较大的模型，ViT论文作者团队自己的工作

Noisy Student: ImageNet 当时表现最好的方法。用伪标签 pseudo-label 去 self-training

ViT-H/14 训练比 ViT-H/16 贵，效果和 BiT-L 差不多，优势不明显。怎么突出 ViT 的好呢？

ViT 训练更便宜。TPUv3 天数：ViT-H/14 2.5K, BiT-L 9.9K, Noisy Student 12.3K

ViT 优点：效果好 + 训练快

结果分析

56:47

Vision Transformer 到底需要多少数据才能训练好？

图3 灰色区域 ResNet 的效果，圆圈 ViT 的效果

Take home message: 图3

如果想用 ViT，至少需要 ImageNet-21K 14M 大小的数据集

小于整个数据量，CNN 更合适，更好的利用 inductive bias，ViT 没有特别多 inductive bias 需要更多数据训练。

数据集规模比 ImageNet-21K 更大时，Vision Transformer 效果更好，因为可扩展性 scaling 更好。

图 4 Linear few-shot evaluation

图 3 ViT 和 ResNet 比，加了强约束：dropout、weight decay、label smoothing，约束了 ViT 的发挥

linear evalution: 把 ViT 预训练好的模型直接作为特征提取器，不 fine-tune，+ 一个 logistic regression 得到分类结果。

Few-shot：5-shot，在 ImageNet 做 linear evaluation 时，每类图片随机选取 5 个 samples，evaluation 很快，做消融实验。

linear few-shot evaluation 采用 JFT 数据集 10M, 30M, 100M, 300M。来自同一个数据集，数据没有 distribution gap，模型的效果更能体现 Vision Transformer 本身特质。

ViT 图4 效果和图3 差不多。如何用 ViT 做小样本学习，未来研究方向之一。

图 5 用 ViT 比 CNNs 便宜的实验支持

大家的印象：Transformer 又大又贵，很难训练

average-5：ImageNet-real, Pets, Flower, CIFAR10, CIFAR100 平均

ImageNet 单独的对比

同等计算复杂度：ViT 比 ResNet 效果好，印证了 ViT 训练更便宜

Q: Hybrid 模型，CNN 抽取出来的特征，能不能帮助 Transformer 更好的学习呢？

小模型，Hybrid 模型吸收 CNN 和 Transformer 的优点，效果好。不需要很多的数据预训练，达到 Transformer 的效果
大模型，Hybrid 模型和 Transformer 差不多，甚至不如 Transformer 模型。Why？
如何预处理图像，如何做 tokenization 很重要，后续论文有研究

整体趋势：模型增加，除了 Hybrid 模型有点饱和（饱和：增加到一个平台值后，不增加了）。ResNet 和 Transformer 都没有饱和。

4.5 Inspecting Vision Transformer

01:03:33

可视化分析 ViT 内部表征 internal representations: Patch embedding, position embedding

ViT 第一层 Linear projection E 学到了什么？

Figure 7 (left) embed RGB value 前 28 个主成分

Vision Transformer 和 CNN 学到的很像，类似 gabor filter 有颜色、纹理，可以做 plausible basis functions，可以描述每个图像块的底层信息 a low-dimensional representation of the fine structure within each patch.

Position embedding 能学到一些表示位置距离的信息

patch 自己本身相似度高黄色 1
学到了距离的概念
(4, 4) 黄色中心点，越边缘，相似度越低，颜色越蓝
学到了行和列的距离规则
同行同列，颜色条的表示
虽然是 1d 的 position embedding，但已经学到了 2d 的图像位置概念；所以换成 2d position 提升不多。

Self-attention 有没有起作用？

01:05:30

用 Transformer 的原因：自注意力能模拟长距离的关系。

NLP 一个很长的句子里，开头的一个词和结尾的一个词可能互相有关联。
CV 里很远的两个像素点之间也能做自注意力。

ViT 的 self-attention 是不是很远的像素点也能有交互？

ViT-L/16 有 24 层（横坐标值），五颜六色的点：transformer 每层 multi-head 的heads，ViT-L 16 heads, 每一列有 16 个点

纵轴是 mean attention distance

d_ab = l_ab * A_ab = ab 两点 pixel 之间的距离差 * ab 两点之间的attention weights

d_ab 的大小，反映模型能不能注意到很远的 2 个 pixels

self-attention 刚开始能注意到 10 - 110 pixels
self-attention 刚开始就注意到全局的信息；CNN 刚开始第一层的感受野 receptive filed 很小，只能看到附近的 pixel

网络加深，模型学到的特征越来越 high level，越来越有语义信息，像素的自注意力距离越来越远，不是靠邻近的像素点做判断。

证明自注意力有学到很远距离的 pixel 信息，证明 by 图6

ViT 最后一层 output 的 token 的 self-attention 折射（逆向映射）回原来的输入图片。ViT 真的学到了一些概念：狗、飞机

Globally 全局来说，输出的 token 是融合全局的特征信息，ViT 模型可以关注到和 classfication 分类相关的图像区域。

4.6 self-supervision

01:08:07

如何用自监督的方式训练一个 vision transformer？

很重要，22页全文，别的结果都在 appendix，自监督的结果在正文。

因为 NLP 的 transformer 都是用 large scale self-supervised pre-training 大规模、自监督的方式预训练的。

NLP 的自监督：BERT 完形填空 Mask language model，GPT 生成，预测下一个词 by language model

ViT 借鉴 BERT，创建一个专属于 vision 的目标函数，masked patch prediction。一张图片的某些 patches 随机抹掉，ViT 重建缺失的patches

Note：从模型、目标函数上，CV 和 NLP 的大一统。

但是，ViT-B/16 with masked patch prediction 在 ImageNet ~80% 准确率。~80% 比从头训练 ViT 好 2%，比 supervised pre-training 低 4%。

ViT 和 contrastive pre-training 的结合： future work i.e., MOCOv3, DINO

contrastive learning: 2020 年 CV 最火的 topic，是所有自监督学习方法表现最好的。

8 评论

01:09:53

写作：简洁明了、有轻有重（重要结果放正文），图表清晰。

内容：Vision Transformer 挖了一个大坑：各个角度的分析，提升 or 推广

task 任务角度：ViT 只做了分类，检测、分割、其它领域的任务 future work

ViT 结构的角度：

改刚开始的 tokenization
改 transformer block, i.e., self-attention 换成 MLP works
MetaFormer 认为 transformer work 的原因是 transformer 的架构，不是 transformer 某些特殊的算子
MetaFormer，self-attention 改成（不能学习的）pooling 池化操作；甚至改成 Identity，不用注意力

改目标函数：有监督、or 不同的自监督训练方式

ViT 的大坑：

打通了 CV 和 LP 之间的鸿沟
挖了一个更大的多模态的坑
视频、音频、基于 touch 的信号
各种 modality 的信号都可以拿来用