w~视觉~合集24-CFANZ编程社区

#matting-survey

这里系统性的概述了深度学习驱动下的图像抠图研究进展，涵盖了自深度学习时代以来（8年时间跨度）各类图像抠图算法及应用的研究进展。

Arxiv 链接：https://arxiv.org/abs/2304.04672

Github链接：https://github.com/jizhiziLi/matting-survey

图像抠图是一个计算机视觉领域内的基础任务，旨在获取任意图像中的精细前景。对于需要精细细节的前景类别尤为关键，例如人像，动物，或者植物。图像抠图在很多的下游任务中充当着不可或缺的角色，包括电商网站的广告宣传，日常生活娱乐中的图像编辑，视频会议中的替换背景，或者虚拟现实，游戏等一些元宇宙应用。传统的研究方法因局限于底层色彩结构，且对人类辅助输入信息非常敏感，从而在复杂背景中无法得到优秀的抠图结果。近年来，基于深度学习的解决方案涌现，利用神经网络优秀的特征提取能力取得了非常优秀的抠图结果，随之诞生的还有多种新方向，诸如全自动抠图，人机交互式抠图，语言引导抠图等等。

本综述首次系统性的概述了深度学习驱动下的图像抠图研究进展，涵盖了自深度学习时代以来（8年时间跨度）各类图像抠图算法及应用的研究进展。我们将主流的算法划分为两类，即基于人工辅助信息的抠图和全自动图像抠图研究。在每个类别中，我们对相关的任务设定，网络模型，突出贡献，优势和局限性都进行了充分的论述。另外，本文还整合了包括合成图像和真实图像在内的诸多图像抠图数据集，并在典型的数据集上对具有代表性的诸多方法进行了系统的实验和主客观结果评估。最后，我们介绍了整个基于深度学习的图像抠图领域的相关应用，讨论了目前存在的挑战以及未来可能的研究方向。

本综述总结的方法细节，数据集，实验与评估的结果都已在线公开并会保持更新，详情请见链接：https://github.com/jizhiziLi/matting-survey.图像抠图介绍

作为一个自从电影制作产业初期就出现的问题，图像抠图已经被学者们用传统方法研究了几十年，主流的方法有两种，基于色彩采样和相似度矩阵。然而，传统方法局限于底层色彩特征，且对人类辅助输入信息非常敏感，从而在复杂背景中无法得到优秀的抠图结果。

自深度学习出现之后，研究者设计出了多种多样的基于卷积神经网络的解决方案。和传统方法一样，早期的深度学习方法依然需要依赖一定量的人工辅助信息，例如三分图（trimap），涂抹（scribble），背景图像等等，粗糙的初始分割等等。近年来，更多灵活多样的人工辅助信息被探索，例如用户点击和语言引导。在下图中，我们展现了一些常见的人工辅助信息的样例。

w~视觉~合集24_视觉

图1. 图像抠图输入，预测结果和一些人工辅助信息的展示，例如三分图，背景，粗糙分割，用户点击，用户涂抹等等。该图中的语言输入可以为：图像中间的可爱的微笑的小狗。

同时，为了使得图像抠图能被快速应用于工业场景，全自动抠图也在近年内被提出。这些方法可以直接从图像中预测出最终的结果，不需要任何额外的人工辅助信息。但是，因为受训练数据集的数据分布的影响，它们倾向于得到图中全部显著性的前景。为了促进深度学习方法的研究，近年来被研究者构建了大量的相关数据集，包括合成数据集和真实数据集。本文对相关的研究算法和训练与测试数据集做了详尽的介绍。同时，我们总结了深度学习时代相关算法的时间轴，列图如下，可以看出近年来该领域的研究热度不断增加。

w~视觉~合集24_视觉_02

图2. 基于深度学习的图像抠图方法时间轴

w~视觉~合集24_视觉_03

图3. 基于深度学习的图像抠图方法总结表，包括出版刊物，输入模态，是否自动化，抠图目标，网络结构，训练数据集和测试数据集等。

具体研究进展及讨论

鉴于图像抠图任务是一个未知参数很多的病态问题，使用用户辅助信息作为输入是非常常见的解决方法。从传统时代开始，一张定义了指定前景，背景，和未知区域的三分图（trimap）就被广泛使用，随之一起出现的是指定前景背景的用户涂抹图像（scribble）。到了深度学习时代，多种多样的下游任务催生出了更多类型的用户辅助信息，诸如背景图，粗糙的二元分割图，用户交互式点击，语言引导等等。这些方法的网络结构设计大致可分为三类，如图4所示：1）单阶段网络；2）单阶段网络，附加边缘模块用以提取辅助信息中更多的图像特征；3）双分支或多分支网络，用以分别处理图像和辅助信息，并一起经过融合网络以得到最终输出。这些方法每一项都弥补了前序方法的不足，对辅助信息进行了更输入的挖掘和信息提炼，以得到更优秀的抠图结果。然而，此类方法依然存在两个问题。首先他们依然依赖于不同程度的人力，使得在实用场景的自动化应用有些困难。第二点是这些方法很多依然对辅助信息非常敏感，比如三分图的未知区域大小，用户交互点击的密度等等。因此研发更鲁棒的方法既是一个挑战也是一个非常有前景的研究方向。更多详情可见文章第三章。

w~视觉~合集24_视觉_04

图4. 基于深度学习和辅助信息的图像抠图方法框架分类图。(a) 单阶段网络。(b) 带有边缘模块的单阶段网络。(3) 双分支或者多分支网络。

为了克服基于辅助信息的图像抠图方法的局限性，近年来，全自动抠图也成为了研究热点。这些方法旨在不经过任何人工参与的情况下，直接预测出图中的细致前景。根据网络结构的设计也可以大体分为三类，如图5所示：1）单阶段网络并利用旁支的全局模块引导图像高层的语意信息；2）两阶段网络来首先预测辅助信息，再设计基于辅助信息的第二阶段网络；3）用共享的编码网络获取不同层次的图像信息，通过多分支的解码网络分别预测高层语意和低层细节，并通过硬融合得到最终的结果。这一类方法由于没有任何额外信息的引导，非常容易受到训练数据集的影响。因此大部分方法局限于某些特定的抠图目标，比如人像，动物，透明物体等等。近年来，也有方法探索通过将通用物体分为三类，即显著性闭合前景，显著性透明或细致前景，以及非显著前景，并用同一个网络进行全种类抠图。全自动抠图方法因为不需要任何人工的干预，在工业界得到了广泛的实用。然而，此类研究依然存在一些挑战，例如如何提高方法的泛化性，尤其在训练数据集中未见到的图像上得到很好的效果，或者如何在保有高质量抠图结果的同时提高运算效率，减小模型大小。更多详情可见文章第四章

w~视觉~合集24_视觉_05

图5. 基于深度学习的全自动图像抠图方法框架分类图。(a) 基于全局引导信息的单阶段网络。(b) 两阶段网络。(c) 共享编码器的双分支网络。

作为深度学习方法不可或缺的驱动力，构建大型数据集非常关键。因此，本文对于抠图领域内近年来涌现的数据集做了统一的介绍和比较，包括早期的合成图像数据集和最近的真实图像数据集。如图6所示，我们对现有数据集按照输入模态，标签类型，抠图目标，平均尺寸，标注方法，训练集和测试集的数目，是否公开，进行了归类整理和对比。详情可参见文章第五章。

w~视觉~合集24_视觉_06

图6. 图像抠图数据集比较，包括出版刊物，模态，标签类型，是否是自然图像，抠图目标，平均尺寸，标注方式，训练数据量，测试数据量，是否公开等等。

评测基准

在这一节里，我们详细介绍了整个抠图领域内深度学习算法常用的损失函数，评价标准，预处理方式和训练技巧。对于基于辅助信息的方法和全自动方法，我们分别在两类常用的数据集上对具有代表性的算法进行了详尽的比较。包括主观客观结果比较，方法的模型惨数量，复杂度，以及处理512x512分辨率的图像的推理时间。我们在同种设定下进行了大量的实验以公正的评测目前的深度学习方法与早先的传统算法。相关客观指标结果如图7所示。为了给读者一个对于目前主流方法结果直观的感受，我们在图8展示了一些实际结果例子。

w~视觉~合集24_视觉_07

图7. 图像抠图算法的客观指标结果。

w~视觉~合集24_视觉_08

图8. 图像抠图算法主观对比图。

挑战与展望

图像抠图，作为一个基础的图像底层算法，在诸多的下游任务中都有非常广泛的应用，包括视觉感知能力例如物体检测，语义分割，障碍物去除，图像编辑应用例如图像合成，图像补全，图像风格转换，视频处理应用例如视频特效关联，浅景深合成，视频抠图，多模态和3D应用例如遥感，3D图像渲染等等。这些年来，图像抠图领域迅速的崛起与发展也带来了很多挑战与新的研究机会。我们在这里做一个简要的讨论，更多详情请见文章第八章。

1.更精确的评价指标

现有的评价指标可以从客观上表示预测结果和标签之间的相似度，然而如何更加精确的反应人类对于预测结果的主观评价是一个困难的问题。例如SAD可以评价出全图或者未知区域的相似度，但是对于人类主观关注的区域，比如头发，耳环，或者眼镜框等等却无法进行精确的评估。一个可能的解决方案是利用基于结构相似性的度量，例如SSIM，来对细节信息进行更精确的评估。

2.更轻量级的模型设计

鉴于图像抠图会在实时的全自动化工业领域内有广泛的应用，如何设计一个轻量级的模型并保有精确的预测结果是一个长久而充满潜力的研究方向。一些有效的策略包括降维处理，特征复用，剪枝操作，或者混合分辨率结构。

3.多模态抠图

将图像抠图领域与多模态领域进行融合可以进一步扩展图像抠图的适用范围。已经有的研究将抠图和人类语言输入进行结合，预测出符合人类描述的指定前景。更多的输入模态可以包括，语音指令，目光注视点，以及3D的可渲染光线神经场模型。

4.扩散模型

近期，扩散模型已经在图像生成领域表现出了优秀的潜力。大语言模型和跨模态预训练的显著进展为扩散模型的多模态应用提供了极速发展的动力，使得从空白画板生成并编辑高质量的图像成为了可能性。这也为图像抠图领域带来了一个开放性的问题：在扩散模型的新时代里，图像抠图领域会有怎样的走向，会是一个方向的终结，还是一个崭新的开端。

总结

我们提供了一份深度学习驱动的图像抠图领域的综述，涵盖了该领域详尽的背景介绍，基于辅助信息的方法概述，全自动化的方法概述，数据集的整理和比较，公开的基准测试以及未来的研究方向。为了展示图像抠图领域内清晰的发展脉络和未来趋势，我们对现有方法做了精细的分类和深入的探讨。此外，我们将长期维护一个开放的github仓库来定期更新最新的工作进展和数据集（https://github.com/jizhiziLi/matting-survey）。我们希望本综述能够为相关领域的研究者和从业人员提供一个重要的参考，并一起推动这个领域的发展。

Arxiv 链接：https://arxiv.org/abs/2304.04672

Github链接：https://github.com/jizhiziLi/matting-survey

#DropKey

美图影像研究院（MT Lab）与中国科学院大学突破性地提出正则化方法 DropKey，用于缓解 Vision Transformer 中的过拟合问题。该方法通过在注意力计算阶段随机 drop 部分 Key 以鼓励网络捕获目标对象的全局信息，从而避免了由过于聚焦局部信息所引发的模型偏置问题，继而提升了基于 Transformer 的视觉类算法的精度。

近期，基于 Transformer 的算法被广泛应用于计算机视觉的各类任务中，但该类算法在训练数据量较小时容易产生过拟合问题。现有 Vision Transformer 通常直接引入 CNN 中常用的 Dropout 算法作为正则化器，其在注意力权重图上进行随机 Drop 并为不同深度的注意力层设置统一的 drop 概率。尽管 Dropout 十分简单，但这种 drop 方式主要面临三个主要问题。

首先，在 softmax 归一化后进行随机 Drop 会打破注意力权重的概率分布并且无法对权重峰值进行惩罚，从而导致模型仍会过拟合于局部特定信息（如图 1）。其次，网络深层中较大的 Drop 概率会导致高层语义信息缺失，而浅层中较小的 drop 概率会导致过拟合于底层细节特征，因此恒定的 drop 概率会导致训练过程的不稳定。最后，CNN 中常用的结构化 drop 方式在 Vision Transformer 上的有效性并不明朗。

w~视觉~合集24_视觉_09

美图影像研究院（MT Lab）与中国科学院大学在 CVPR 2023 上发表了一篇文章，提出一种新颖且即插即用的正则化器 DropKey，该正则化器可以有效缓解 Vision Transformer 中的过拟合问题。

论文链接：https://arxiv.org/abs/2208.02646

文章中对以下三个核心问题进行了研究：

第一，在注意力层应该对什么信息执行 Drop 操作？与直接 Drop 注意力权重不同，该方法在计算注意力矩阵之前执行 Drop 操作，并将 Key 作为基础 Drop 单元。该方法在理论上验证了正则化器 DropKey 可以对高注意力区域进行惩罚并将注意力权值分配到其它感兴趣的区域，从而增强模型对全局信息的捕获能力。

第二，如何设置 Drop 概率？与所有层共享同一个 Drop 概率相比，该论文提出了一种新颖的 Drop 概率设置方法，即随着自注意力层的加深而逐渐衰减 Drop 概率值。

第三，是否需要像 CNN 一样进行结构化 Drop 操作？该方法尝试了基于块窗口和交叉窗口的结构化 Drop 方式，并发现这种技巧对于 Vision Transformer 来说并不重要。

Vision Transformer（ViT）是近期计算机视觉模型中的新范式，它被广泛地应用于图像识别、图像分割、人体关键点检测和人物互相检测等任务中。具体而言，ViT 将图片分割为固定数量的图像块，将每个图像块都视作一个基本单位，同时引入了多头自注意力机制来提取包含相互关系的特征信息。但现有 ViT 类方法在小数据集上往往会出现过拟合问题，即仅使用目标局部特征来完成指定任务。

为了克服以上问题，该论文提出了一种即插即拔、仅需要两行代码便可实现的正则化器 DropKey 用以缓解 ViT 类方法的过拟合问题。不同于已有的 Dropout，DropKey 将 Key 设置为 drop 对象并从理论和实验上验证了该改变可以对高注意力值部分进行惩罚，同时鼓励模型更多关注与目标有关的其他图像块，有助于捕捉全局鲁棒特征。此外，该论文还提出为不断加深的注意力层设置递减的 drop 概率，这可以避免模型过度拟合低级特征并同时保证有充足的高级特征以进行稳定的训练。此外，该论文还通过实验证明，结构化 drop 方法对 ViT 来说不是必要的。

DropKey

为了探究引发过拟合问题的本质原因，该研究首先将注意力机制形式化为一个简单的优化目标并对其拉格朗日展开形式进行分析。发现当模型在不断地优化时，当前迭代中注意力占比越大的图像块，在下次迭代过程中会倾向于被分配更大的注意力权值。为缓解这一问题，DropKey 通过随机 drop 部分 Key 的方式来隐式地为每个注意力块分配一个自适应算子以约束注意力分布从而使其变得更加平滑。值得注意的是，相对于其他根据特定任务而设计的正则化器，DropKey 无需任何手工设计。由于在训练阶段对 Key 执行随机 drop，这将导致训练和测试阶段的输出期望不一致，因此该方法还提出使用蒙特卡洛方法或微调技巧以对齐输出期望。此外，该方法的实现仅需两行代码，具体如图 2 所示。

w~视觉~合集24_视觉_10

图 2 DropKey 实现方法

一般而言，ViT 会叠加多个注意力层以逐步学习高维特征。通常，较浅层会提取低维视觉特征，而深层则旨在提取建模空间上粗糙但复杂的信息。因此，该研究尝试为深层设置较小的 drop 概率以避免丢失目标对象的重要信息。具体而言，DropKey 并不在每一层以固定的概率执行随机 drop，而是随着层数的不断加深而逐渐降低 drop 的概率。此外，该研究还发现这种方法不仅适用于 DropKey，还可以显著提高 Dropout 的性能。

虽然在 CNN 中对结构化 drop 方法已有较为详细的研究，但还没有研究该 drop 方式对 ViT 的性能影响。为探究该策略会不会进一步提升性能，该论文实现了 DropKey 的两种结构化形式，即 DropKey-Block 和 DropKey-Cross。其中，DropKey- Block 通过对以种子点为中心的正方形窗口内连续区域进行 drop，DropKey-Cross 则通过对以种子点为中心的十字形连续区域进行 drop，如图 3 所示。然而，该研究发现结构化 drop 方法并不会带来性能提升。

w~视觉~合集24_视觉_11

图 3 DropKey 的结构化实现方法

实验结果

w~视觉~合集24_视觉_12

w~视觉~合集24_视觉_13

w~视觉~合集24_视觉_14

w~视觉~合集24_视觉_15

w~视觉~合集24_视觉_16

总结

该论文创新性地提出了一种用于 ViT 的正则化器，用于缓解 ViT 的过拟合问题。与已有的正则化器相比，该方法可以通过简单地将 Key 置为 drop 对象，从而为注意力层提供平滑的注意力分布。另外，该论文还提出了一种新颖的 drop 概率设置策略，成功地在有效缓解过拟合的同时稳定训练过程。最后，该论文还探索了结构化 drop 方式对模型的性能影响。

#GlyphDraw

为了让 AI 生成的图像里带有真正的文字，人们想尽了办法。

近来，文本生成图像领域取得了很多意想不到的突破，很多模型都可以实现基于文本指令创建高质量和多样化图像的功能。虽然生成的图像已经很逼真，但当前模型往往善于生成风景、物体等实物图像，但很难生成带有高度连贯细节的图像，例如带有汉字等复杂字形文本的图像。

为了解决这个问题，来自 OPPO 等机构的研究者们提出了一个通用学习框架 GlyphDraw，旨在让模型能够生成嵌入连贯文本的图像，这是图像合成领域首个解决汉字生成问题的工作。

论文地址：https://arxiv.org/abs/2303.17870
项目主页：https://1073521013.github.io/glyph-draw.github.io/

我们先来看一下生成效果，例如为展览馆生成警示标语：

w~视觉~合集24_视觉_17

生成广告牌：

w~视觉~合集24_视觉_18

为图片配上简要的文本说明，文字样式也可多样化：

w~视觉~合集24_视觉_19

还有，最有趣也最实用的例子是生成表情包：

w~视觉~合集24_视觉_20

虽然结果存在一些瑕疵，但是整体生成效果已经很好了。总体来说，该研究的主要贡献包括：

该研究提出了首个汉字图像生成框架 GlyphDraw，其中利用一些辅助信息，包括汉字字形和位置在整个生成过程中提供细粒度指导，从而使汉字图像高质量无缝嵌入到图像中；
该研究提出了一种有效的训练策略，限制了预训练模型中可训练参数的数量，以防止过拟合和灾难性遗忘（catastrophic forgetting），有效地保持了模型强大的开放域生成性能，同时实现了准确的汉字图像生成。
该研究介绍了训练数据集的构建过程，并提出了一个新的基准来使用 OCR 模型评估汉字图像生成质量。其中，GlyphDraw 获得了 75% 的生成准确率，明显优于以前的图像合成方法。

w~视觉~合集24_视觉_21

模型介绍

该研究首先设计了复杂的图像 - 文本数据集构建策略，然后基于开源图像合成算法 Stable Diffusion 提出了通用学习框架 GlyphDraw，如下图 2 所示。

w~视觉~合集24_视觉_22

Stable Diffusion 的整体训练目标可以表示为如下公式：

w~视觉~合集24_视觉_23

GlyphDraw 基于 Stable Diffusion 中的交叉注意力机制，原始输入潜在向量 z_t 被图像潜在向量的 z_t、文本掩码 l_m 和字形图像 l_g 的级联替代。

w~视觉~合集24_视觉_24

此外，通过使用特定领域的融合模块，条件 C 配备了混合字形和文本特征。文本掩码和字形信息的引入，让整个训练过程实现了细粒度的扩散控制，是提高模型性能的关键组成部分，最终得以生成带有汉字文本的图像。

具体来说，文本信息的像素表征，特别是象形汉字这种复杂的文本形式，与自然物体有明显的不同。例如，中文词语「天空（sky）」是由二维结构的多个笔画组成，而其对应的自然图像是「点缀着白云的蓝天」。相比之下，汉字有非常细粒度的特性，甚至是微小的移动或变形都会导致不正确的文本渲染，从而无法实现图像生成。

在自然图像背景中嵌入字符还需要考虑一个关键问题，那就是在避免影响相邻自然图像像素的同时，还要精确地控制文本像素的生成。为了在自然图像上呈现完美的汉字，作者精心设计了两个集成到扩散合成模型中的关键组件，即位置控制和字形控制。

与其他模型的全局条件输入不同，字符生成需要更多地关注图像的特定局部区域，因为字符像素的潜在特征分布与自然图像像素的潜在特征分布有很大差异。为了防止模型学习崩溃，该研究创新性地提出了细粒度位置区域控制来解耦不同区域之间的分布。

除了位置控制，另一个重要的问题是汉字笔画合成的精细控制。考虑到汉字的复杂性和多样性，在没有任何明确先验知识的情况下，仅仅只是从大量的图像 - 文本数据集中学习是极其困难的。为了准确地生成汉字，该研究将显式字形图像作为额外的条件信息纳入模型扩散过程。

w~视觉~合集24_视觉_25

实验及结果

由于此前没有专门用于汉字图像生成的数据集，该研究首先构建了一个用于定性和定量评估的基准数据集 ChineseDrawText，然后在 ChineseDrawText 上测试比较了几种方法的生成准确率（由 OCR 识别模型评估）。

w~视觉~合集24_视觉_26

该研究提出的 GlyphDraw 模型通过有效地使用辅助字形和位置信息达到了 75% 的平均准确率，从而证明了该模型出色的字符图像生成能力。几种方法的可视化比较结果如下图所示：

w~视觉~合集24_视觉_27

w~视觉~合集24_视觉_28

此外，GlyphDraw 还可以通过限制训练参数来保持开放域图像合成性能，在 MS-COCO FID-10k 上一般图像合成的 FID 仅下降了 2.3。

w~视觉~合集24_视觉_29

#SegGPT

名字是不是好吓人哦视觉GPT 大通用分割模型登场！利用视觉 prompt 分割万物

Title: SegGPT: Segmenting Everything In Context
Paper: https://arxiv.org/pdf/2304.03284.pdf
Code: https://github.com/baaivision/Painter

w~视觉~合集24_视觉_30

图1.SegGPT 可以使用上下文示例指示不同任务，一个模型即可对所有内容进行分割。

前几天 Meta 发布了 Segment Anything Model (SAM)，其表现出的“分割万物”能力让 CV 届掀起热潮。模型已公布，没体验过的朋友们赶紧去试试！

https://github.com/facebookresearch/segment-anything

紧接着，北京智源人工智能研究院也推出了通用分割大模型 SegGPT。与 SAM 的交互分割方式不同，该方法利用提示 (prompt) 完成任意目标的分割。本文将对 SegGPT 进行详细介绍。

SegGPT 将各种分割任务统一成一个通用的上下文学习框架，可用于分割上下文中的所有事物。SegGPT 的训练被制定为一个上下文着色问题，为每个数据样本随机分配颜色映射。目标是根据上下文完成不同的分割任务，而不是依赖于特定的颜色。

完成训练后，SegGPT 可以通过上下文推理执行图像或视频中的任意分割任务。SegGPT 在多种任务上进行了详细实验，包括少样本语义分割、视频目标分割、语义分割和全景分割。结果表明，SegGPT 在不同任务中均表现出强大的分割能力。

图像分割技术是将图像中的有意义的概念（如前景、类别、目标实例等）定位和重新组织的过程。传统的分割模型针对特定的任务、类别、数据类型等进行训练，无法适应多样化的分割任务，并且需要昂贵的注释成本。

因此，本文提出的 SegGPT 旨在训练一个通用模型，可以用于解决所有的分割任务。

SegGPT 通过将不同类型的分割数据转换为相同的图像格式，使得不同的分割任务统一到一个通用的上下文学习框架中。SegGPT 的训练被制定为一个上下文着色问题，每个数据样本具有随机的颜色映射。训练目标是根据上下文完成多样化的任务，而不是依赖特定的颜色。训练过程中使用的随机着色方案强制模型参考上下文信息来完成分配的任务，这使得训练方法更加灵活和通用。

完成训练后，SegGPT 可以通过上下文推断执行任意分割任务。为了有效地集成多个示例，我们还提出了一种简单而有效的上下文集合策略——特征集合。此外，SegGPT 还可以方便地作为专业模型使用，无需更新模型参数，只需调整 prompt 以适应专业用例，如域内 (in-domain) ADE20K 语义分割。

w~视觉~合集24_视觉_31

图2. SegGPT 训练框架

SegGPT 是 Painter 框架的一个特殊版本。SegGPT 可以使用通用的 Painter 对所有事物进行分割，因此被称为 SegGPT。

该训练框架重新定义了视觉任务的输出空间为“图像”，并将不同的任务统一到同一个图像修复问题中，即随机遮盖任务输出图像并重建缺失的像素。为了保持简单性和通用性，我们没有对架构和损失函数进行修改，即仅使用了一个普通的 ViT 和一个简单的平滑损失，但设计了一个新的随机着色方案以提高模型的泛化能力。

In-Context Coloring

传统的 Painter 框架中，每个任务的颜色空间是预定义的，这导致模型容易陷入多任务学习的解决方案中。例如，对于语义分割，一组颜色是预定义的，每个语义类别被分配一个固定的颜色。同样，在实例分割中，根据其位置类别分配实例对象的颜色，即颜色的数量等于空间位置的数量，这导致模型只依赖颜色本身来确定任务，而不是使用分割之间的关系。

为了解决这个限制，本文提出了一种新的 in-context coloring 技术，其基本思想是在相似的语境下对颜色进行重新映射，这样可以避免在预定义的颜色空间中受限制，使得模型学习到更多的上下文信息。

具体地说，in-context coloring 技术是通过以下步骤实现的：首先，从与输入图像共享类似语境的另一张图像中随机采样。然后，从目标图像中随机采样一组颜色，并将每种颜色映射到一个随机的颜色。这将导致相应像素的重新上色。最终得到两个成对的图像，这被定义为 in-context pair。

此外，本文还引入了 mix-context 训练方法，即使用混合示例来训练模型。首先将具有相同颜色映射的多个图像拼接在一起。然后，将结果图像随机裁剪和调整大小，形成混合上下文训练样本。

通过这种方式，模型学习关注图像的上下文信息而不仅仅依赖于特定的颜色信息来确定任务。此外，我们还根据不同的数据类型定义了不同的上下文，例如对于语义分割，随机采样类别，对于实例分割，随机采样目标实例数量。同一图像的不同视角被视为上下文中的图像。在实现中，采样都是关于颜色的，例如相同的颜色可以指代相同的类别或实例。

Context Ensemble

w~视觉~合集24_视觉_32

图3. 上下文集成策略

SegGPT 在推理阶段可以实现任意上下文的分割任务。给定一个待测试的输入图像和一个目标图像，目标图像可以是单色（不包括背景）或多色，例如，在一个画面种分割多个感兴趣的类别或物体。通过将输入图像与示例图像拼接并输入 SegGPT，并得到相应的上下文预测。

为了提供更准确和具体的上下文，可以使用多个示例，例如，同一语义类别的几个示例或视频中的前几帧。为了有效利用多个示例，SegGPT 提出了两种上下文集成方法：空间集成和特征集成。

空间集成

将多个示例串联在n×n网格中，然后缩小到与单个示例相同的大小。

特征集成

将多个示例在批处理维度组合，并在每个注意力层之后对查询图像的特征进行平均。

这样，在推理过程中，查询图像就可以汇集多个示例的信息。

In-Context Tuning

w~视觉~合集24_视觉_33

图4. 根据不同任务规范进行上下文调整。

通过冻结整个模型并初始化一个可学习的图像张量作为输入上下文，仅更新这个可学习的图像张量来适应独特的用例。这个过程的训练过程保持不变，仍然使用相同的损失函数。调整完成后，可以将学习到的图像张量作为针对特定应用程序的一个即插即用的 key。

通过这个功能，可以针对特定的数据集、场景、角色等训练一个定制的 prompt，而不会影响模型的通用性，这为许多应用开启了可能性。

实验

w~视觉~合集24_视觉_34

SegGPT 在两个基准测试中实现与 SOTA 模型相当或者更好的性能。对比通用模型 Painter，SegGPT 取得了显著的优势。

w~视觉~合集24_视觉_35

相比于在 FSS-1000 上训练的专家模型，SegGPT 表现出极具竞争力的性能。值得注意的是，SegGPT 没有在 FSS-1000 数据集上进行训练，但仍然取得了显著的结果，这充分证明了它的有效性。

w~视觉~合集24_视觉_36

SegGPT 与 RefineNet 等专家模型相比具有相媲美的性能。然而，与通用的 Painter 相比，我们的方法在 mIoU 上下降了10.3个点。这个观察结果可以通过引入随机颜色方案来解释，这使得模型更难以使用颜色作为领域任务的简单指示器。相反，模型需要依赖于上下文示例来确定任务，从而使优化变得更加困难。同样地，表格6显示了 SegGPT 与 Painter 通用模型相比下降了9.0个 PQ 点。

w~视觉~合集24_视觉_37

图5. 模型输入和输出可视化

总结

本文介绍了一种基于上下文视觉学习的通用分割模型 SegGPT，展示了如何设计合适的训练策略，充分利用上下文视觉学习的灵活性。

该模型在处理领域内和领域外的分割任务方面表现出强大的能力。然而，文章也指出了一些缺点，在上下文训练中引入了新的随机着色机制，使得训练任务本质上更加困难。

我们相信，SegGPT 在图像/视频分割领域中有潜力成为实现更多种类应用的有力工具。后续我们计划通过扩大模型规模来进一步提高性能，但这也带来了寻找更多数据的挑战。我们希望我们的工作能够激励社区继续探索计算机视觉中上下文学习的潜力。

#SPM~~

本文主要的核心点在于探索形状先验(shape priors)对分割性能的影响。一种即插即用的形状先验模块!

按笔者的理解，这是因为在医学图像中，不同的器官或病灶通常具有特定的形状和结构，这些形状和结构信息对于分割模型来说非常关键，因此先前的许多工作尝试利用形状先验来设计分割模型，以获得具有解剖形状信息的更好掩模(mask)。换句话理解就是引入形状先验可以帮助分割模型在分割过程中更好地考虑和利用目标物体的形状信息，从而提高分割性能。

为此，本文集中探讨了三种带有形状先验的分割模型：

🔹基于图谱的模型(atlas-based models)

🔹基于统计的模型(statistical-based models)

🔹基于U-Net的模型(UNet-based models)

w~视觉~合集24_视觉_38

最后，为了评估 SPM 的有效性，作者在三个具有挑战性的公共数据集上进行了实验。结果表明，作者提出的模型达到了最先进的性能水平。此外，SPM 在不同的经典 CNNs 网络和最新的基于 Transformer 的骨干网络上展现了出色的泛化能力，可作为不同数据集分割任务的即插即用结构。

so，讲到这里，可能还有小伙伴没理解什么叫“隐式”，什么又叫“显示”，下面讲下个人理解：

隐式形状先验通常是通过在模型中加入先验信息，例如特定的损失函数或正则化项来实现的。这些隐式的形状先验通常难以解释，因为它们是通过一些特殊的方式集成到模型中的，而不是直接考虑目标物体的形状信息。例如，在基于 UNet 的模型中，可以通过使用 Dice 损失函数来强制模型更加注重目标物体的轮廓信息，从而隐式地考虑了形状先验信息。

相反，显式形状先验则直接将形状先验信息作为输入提供给模型。例如，在本文中，作者提出了一个新的形状先验模块，它明确地将形状先验信息作为输入，并利用这些信息来引导模型更好地分割目标物体。这种显式的形状先验可以更好地解释和调整，因为它们直接考虑了目标物体的形状和结构信息。

方法

本文的主要贡献是在U-Net网络基础上设计了一个形状先验模块(SPM)，通过引入可学习形状先验，为每个类别施加解剖形状约束来增强网络的表示能力。与DETR类似，作者设定了 n 个（分割类别数目）可学习原型，类比于DETR中Transformer解码器中的对象查询。

w~视觉~合集24_视觉_39

与DETR不同，SPM会与多尺度特征进行交互，而不仅仅是来自编码器最深层的特征。因此，在跳跃连接之前的分层编码特征在经过SPM处理后将获得更多的形状信息。增强形状先验由两个部分组成:

🔹全局形状先验

🔹局部形状先验

它们分别由自更新块(self-update)和交叉更新块(cross-update block)生成。下面我们就围绕这两个模块简单唠唠。

w~视觉~合集24_视觉_40

Self-update block (SUB)

为了建模类别之间的关系，本文提出了自更新块(参照上图第一行)来生成具有 N 个通道之间交互的形状先验。公式就不展开了，从流程图上可以看出，输入特征是来自编码层对应层级输出的长跳跃连接，作者首先整了两个Resblock做下特征提取并进行维度压缩。其次，便是借鉴ViT中自注意力机制(Self-Attention)的启发，通过引入来自深层的特征，构建对应的QKV。如此一来，网络便可以有效的建模远距离的上下文依赖，从而获得与全局区域相关的丰富纹理信息。

Cross-update block (CUB)

正所谓顾此失彼，试想一下，当一个人看得越“广”，其对目标的聚焦程度显然越“低”。换句话说就是，虽然SUB带来了全局上下文信息，但最关键的形状和轮廓信息缺忽略了，这是由于缺乏相应的归纳偏置来建模局部视觉结构和定位具有不同尺度的对象。

为了解决这个限制，CUB 应运而生。受到卷积核固有的局部性和尺度不变性的归纳偏置的启发，基于卷积的 CUB 为 SPM 注入归纳偏置，以获得更细致的局部形状信息。此外，基于编码器中卷积特征具有定位区分性区域的显著潜力的事实，作者尝试在原始跳跃特征和形状先验之间进行交互。

综上所述，所提出的形状先验模块通过引入全局和局部特征对原始跳跃特征和形状先验进行了增强。全局形状先验能够通过自注意力块模拟类间关系，包含粗糙的形状先验和丰富的纹理信息以建立全局上下文。局部形状先验通过卷积引入归纳偏差，从而能够捕捉具有不同尺度的局部视觉结构和定位目标。此外，SPM还通过与全局形状先验的交互来增强原始跳跃特征，从而促进生成具有较好形状表示和全局上下文的特征，最终获得更准确的预测分割掩模。

实验

性能指标

下面分别展示所提方法与其他主流的分割算法在BraTS 2020、VerSe 2019和ACDC的表现：

w~视觉~合集24_视觉_41

w~视觉~合集24_视觉_42

w~视觉~合集24_视觉_43

超过的部门就不讲了哈，问就是因为引入了“形状先验模块”带来的性能提升。直接看上面这张图，nnUnet和nnFormer在Myo指标上表现更加优异，这是因为ACDC这个MRI数据集具备较大的体素空间，这将加剧标签不平衡的影响，而这两者由于采用有效的重采样策略将改善心肌组织的不平衡分布，从而使模型对该区域的关注度更高。

效果展示

w~视觉~合集24_视觉_44

图 4：不同模型在 BraTS 2020 上的预测分割掩码

w~视觉~合集24_视觉_45

图 5：VerSe 2019 上不同模型的预测分割掩码

w~视觉~合集24_视觉_46

图 6：不同模型在 ACDC 上的预测分割掩码

可视化分析

w~视觉~合集24_视觉_47

上图展示了跳跃特征对明确形状先验的影响。其中:

案例（a）展示了从不同阶段生成的明确形状先验。具体来说，形状先验由 N 个通道注意力图组成，其中 N 是分割类别的数量，每行表示来自每个阶段的形状先验。我们可以发现，随着自上而下的过程，形状先验对于地面真实区域呈现出更准确的激活图。特别是，在第一阶段中错误激活的区域将在 SPM 的第二和第三阶段中被抑制。在可视化结果中，存在一种称为反向激活的现象，这意味着除了 GT 区域之外的所有区域都被激活。

案例（b）中则展示了形状先验的最后一个阶段和最后一个通道的典型例子。作者声称，这种现象是由全局形状先验造成的，它为整个区域带来了全局上下文和丰富的纹理信息，甚至包括背景区域。实质上，通过反向注意力简单地定位 ROI，其中 ROI 用清晰的轮廓突出显示。从这个角度来看，反向激活类似于正向激活。

接下来，我们一起将形状先验分解为来自 SUB 和 CUB 的两个组成部分，即全局形状先验和局部形状先验：

w~视觉~合集24_视觉_48

从图8可以观察到，得益于自注意力模块，全局形状先验具有全局的感受野，包含上下文和纹理。然而，SUB 的结构缺乏归纳偏差来模拟局部视觉结构。在这里，我们可以发现，全局形状先验负责对 GT 区域进行粗定位。而由 CUB 生成的局部形状先验可以通过引入卷积核提供更精细的形状信息，这些卷积核具有局部归纳偏差。

w~视觉~合集24_视觉_49

文章的最后，我们再来讨论下形状先验对跳跃特征的影响。上图可视化比较了原始跳跃特征和增强跳跃特征之间的差异。显而易见，增强的跳跃特征通过SPM的处理，强化了整个肿瘤区域，同时通过全局形状先验的引入，为整个区域提供了丰富的纹理信息。最后，通过对心脏 CT 图像的案例解释了特征细化的过程。

总结

本文详细讨论了三种具有形状先验的分割模型，包括基于图谱的模型、统计形状模型和基于 UNet 的模型。为了增强 UNet-based 模型上形状先验的可解释性，本文提出了一个形状先验模块 SPM ，可以明确地引入形状先验以促进不同数据集上的分割性能。所提方法在 BraTS 2020、VerSe 2019 和 ACDC 三个主流的数据集上均实现了最先进的性能。此外，根据定量和定性实验结果，SPM 在不同的骨干网络上表现出良好的泛化能力，可作为一种即插即用的结构。