Vis-transformer的模型结构及数据流图梳理-CFANZ编程社区

Vis-transformer的模型结构及数据流图梳理

AbrahamW

阅读 30

2022-05-04

vision_transformer顾名思义，是将自然语言处理中的Transformer的思想应用在图像分类中，将一张图像切成不同的patch之后作为sequence，使用Transformer来实现图像分类。

本文主要是梳理vis-transformer的模型结构，以及图像数据在各种算子operator下的shape变化。方便理解和进一步开发。

Excalidraw | Hand-drawn look & feel • Collaborative • Secure

精彩评论（0）