1、目的
无监督图像转换:source类 -> target类;
其中target类的样本很少,只在test时用到;
训练source类 -> 多个another类,其中another类的样本也较少;==> 通用的外观提取模型

2、原理/基础
1)人看到新物体(target class),可以基于以往的知识(trained model),脑补出新物体的不同姿势(generated picture)
2)图像之间存在部分共享的潜在空间
3、网络设计
1)条件图像生成器G(少样本图像转换器)

输入:一组内容图像
+ 一组K类图像
,每次随机取source类![]()
输出:
,其中
外表和
类中的一张图接近,但内容和
相似
![]()
a)内容编码器
:卷积 / 残差模块;提取class-invariant隐式表达,决定local structure;内容图像
-> 隐码![]()
b)类编码器
:卷积 / 不同样本的平均操作;提取class-specific隐式表达,决定global look;K类图像
-> 中间隐码 -> element-wise平均后的最终隐码![]()
c)解码器
:AdaIN残差模块/上卷积层;样本激活 -> 0均值单位方差 -> 通过
得到的仿射变换
2)多任务对抗判别器D

同时解决多个对抗分类任务,每个任务是二分类任务
4、目标函数
![]()
1)
:GAN loss

D的上标表示计算相应类的二元loss
2)
:内容图像重建loss
![]()
3)
:特征匹配loss
其中,
是判别器倒数第二层的输出
5、结论
1)训练类别数 ↑,目标类别图像数目 ↑,图像转化能力 ↑
2)理论基础:
a) 内容编码器
可以学到不随类别而改变的隐码![]()
b) 类编码器
可以学到class-specific隐码![]()
c) 类编码器
可以推广到新类别
3)新类在视觉上和训练用的source类具有相关性,如果差距过大,则FUNIT无法成功转换










