vision_transformer顾名思义,是将自然语言处理中的Transformer的思想应用在图像分类中,将一张图像切成不同的patch之后作为sequence,使用Transformer来实现图像分类。
本文主要是梳理vis-transformer的模型结构,以及图像数据在各种算子operator下的shape变化。方便理解和进一步开发。
Excalidraw | Hand-drawn look & feel • Collaborative • Secure
Vis-transformer的模型结构及数据流图梳理
阅读 28
2022-05-04
vision_transformer顾名思义,是将自然语言处理中的Transformer的思想应用在图像分类中,将一张图像切成不同的patch之后作为sequence,使用Transformer来实现图像分类。
本文主要是梳理vis-transformer的模型结构,以及图像数据在各种算子operator下的shape变化。方便理解和进一步开发。
Excalidraw | Hand-drawn look & feel • Collaborative • Secure
相关推荐
精彩评论(0)