w~视觉~合集22~SAM-CFANZ编程社区

#FastSAM~2

论文地址：https://arxiv.org/pdf/2306.12156v1.pdf

SAM它正在成为许多高级任务的基础步骤，如图像分割、图像字幕和图像编辑。然而，其巨大的计算成本使其无法在行业场景中得到更广泛的应用。计算主要来自高分辨率输入的Transformer架构。

在今天分享中，研究者为这项基本任务提出了一种性能相当的加速替代方法。通过将任务重新表述为片段生成和提示，我们发现具有实例分割分支的常规CNN检测器也可以很好地完成该任务。具体而言，我们将该任务转换为研究充分的实例分割任务，并仅使用SAM作者发布的SA-1B数据集的1/50直接训练现有的实例分割方法。使用我们的方法，我们在50倍的运行时速度下实现了与SAM方法相当的性能。我们给出了足够的实验结果来证明它的有效性。

w~视觉~合集22~SAM_视觉

最近提出的SAM，它被视为一个里程碑式的愿景基础模型。它可以在各种可能的用户交互提示的引导下分割图像中的任何对象。SAM利用了在广泛的SA-1B数据集上训练的Transformer模型，这使其能够熟练地处理各种场景和对象。SAM为一项激动人心的新任务打开了大门，该任务被称为Segment Anything。这项任务，由于其可推广性和潜力，具有成为未来广泛愿景任务基石的所有条件。

然而，尽管SAM和后续模型在处理细分市场任何任务方面取得了这些进步和有希望的结果，但其实际应用仍然具有挑战性。突出的问题是与SAM架构的主要部分Transformer（ViT）模型相关的大量计算资源需求。与卷积技术相比，ViT因其繁重的计算资源需求而脱颖而出，这给其实际部署带来了障碍，尤其是在实时应用中。因此，这种限制阻碍了分段任何任务的进展和潜力。

提出的FastSAM基于YOLOv8 seg，这是一种配备了实例分割分支的目标检测器，它利用了YOLACT方法。还采用了SAM发布的广泛的SA-1B数据集。通过仅在SA-1B数据集中的2%（1/50）上直接训练该CNN检测器，它实现了与SAM相当的性能，但大大减少了计算和资源需求，从而实现了实时应用。

w~视觉~合集22~SAM_SAM_02

还将其应用于多个下游分割任务，以显示其泛化性能。在MS COCO上的面向对象任务上，在AR1000上实现了63.7，这比32×32点提示输入的SAM高1.2点，但在单个NVIDIA RTX 3090上运行速度快50倍。实时SAM对工业应用很有价值。它可以应用于许多场景。所提出的方法不仅为大量视觉任务提供了一种新的、实用的解决方案，而且速度非常快，比当前方法快几十倍或数百倍。

下图给出了所提出的Fast-SAM方法的概述。该方法由两个阶段组成，即所有实例分割和提示引导选择。前一阶段是基础，第二阶段本质上是面向任务的后处理。与端到端变换器不同，整体方法引入了许多与视觉分割任务相匹配的人类先验，如卷积的局部连接和感受野相关的对象分配策略。这使得它能够针对视觉分割任务进行定制，并且可以在较小数量的参数上更快地收敛。

w~视觉~合集22~SAM_SAM_03

检测分支输出类别和边界框，而分割分支输出k个原型（在FastSAM中默认为32）以及k个掩码系数。分割和检测任务是并行计算的。分割分支输入高分辨率特征图，保留空间细节，还包含语义信息。该映射通过卷积层进行处理，放大，然后通过另外两个卷积层输出掩码。掩码系数，类似于探测头的分类分支，范围在-1和1之间。实例分割结果是通过将掩模系数与原型相乘，然后将其相加而获得的。

Prompt-guided Selection

在使用YOLOv8成功分割图像中的所有对象或区域之后，分割任何对象任务的第二阶段是使用各种提示来识别感兴趣的特定对象。它主要涉及点提示、框提示和文本提示的使用。

Point prompt包括将选定的点与从第一阶段获得的各种遮罩进行匹配。目标是确定点所在的遮罩。与SAM类似，我们在方法中使用前地面/背景点作为提示。在前景点位于多个遮罩中的情况下，可以利用背景点来过滤出与手头任务无关的遮罩。通过使用一组前景/背景点，我们能够在感兴趣的区域内选择多个遮罩。这些遮罩将合并为一个遮罩，以完全标记感兴趣的对象。此外，我们还利用形态学运算来提高掩模合并的性能。

Box prompt长方体提示涉及在选定长方体和与第一阶段中的各种遮罩相对应的边界框之间执行并集交集（IoU）匹配。其目的是用所选框识别具有最高IoU分数的掩码，从而选择感兴趣的对象。

Text prompt在文本提示的情况下，使用CLIP模型提取文本的相应文本嵌入。然后确定相应的图像嵌入，并使用相似性度量将其与每个掩模的内在特征相匹配。然后选择与文本提示的图像嵌入具有最高相似性得分的掩码。

通过仔细实施这些提示引导选择技术，FastSAM可以从分割图像中可靠地选择感兴趣的特定对象。上述方法提供了一种实时完成任何分割任务的有效方法，从而大大提高了YOLOv8模型在复杂图像分割任务中的实用性。一种更有效的即时引导选择技术留给了未来的探索。

实验及可视化

w~视觉~合集22~SAM_SAM_04

Segmentation Results of FastSAM

w~视觉~合集22~SAM_SAM_05

SAM和Fast-SAM比较

w~视觉~合集22~SAM_视觉_06

在上图中显示了定性结果。FastSAM可以根据文本提示很好地分割对象。然而，文本到掩模分割的运行速度并不令人满意，因为每个掩模区域都需要被馈送到CLIP特征提取器中。如何将CLIP嵌入提取器组合到FastSAM的骨干网络中，仍然是关于模型压缩的一个有趣的问题。

w~视觉~合集22~SAM_SAM_07

#SemiSAM

在本文中，作者提出了一种简单而有效的方法，探索将SAM作为增强一致性学习半监督医学图像分割框架的额外监督分支。

半监督学习由于相比全监督方法对专家获取丰富标注的依赖较小而受到了广泛关注，这在医学图像分割等需要领域专家进行像素/ Voxel 级 Token 的领域尤为重要。尽管半监督方法可以通过利用未标注数据提高性能，但在标注资源极度有限的情况下，全监督方法之间仍然存在差距。

在本文中，作者提出了一种简单而有效的方法，探索如何使用Segment Anything Model（SAM）来增强半监督医学图像分割。具体而言，使用领域知识的分割模型为SAM提供信息，用于定位和生成输入提示。然后，生成的SAM伪标签作为额外的监督，帮助半监督框架的学习过程。实验结果表明，SAM的辅助显著提高了现有半监督框架的性能，尤其是在只有一张或几张 Token 图像的情况下。

1 Introduction

医学图像分割的目标是从医学图像（如器官和病变）中识别特定的解剖结构，这是为提供可靠的体积和形状信息并协助许多临床应用（如疾病诊断和定量分析）提供基础和重要的一步。尽管基于深度学习的方法在医学图像分割任务上表现出色，但大多数这些方法都需要相对大量的优质标注数据进行训练，而获取大规模的仔细 Token 数据集是不切实际的，尤其是在医学成像领域，只有专家能够提供可靠和准确的分割标注。此外，常用的医学成像模式如CT和MRI是3D体积图像，这进一步增加了手动标注的工作量，与2D图像相比，专家需要逐层从体积切片进行分割。

为了应对这个挑战，已经投入了大量的研究来研究标注高效的深度学习方法以用于医学图像分割。这些方法中，半监督学习是一种更实际的方法，通过鼓励模型利用未标注数据，这在与有限量的 Token 数据进行训练时更容易获得。半监督学习通常分为两类：基于伪标签的方法为未标注数据分配伪标签，并使用 Token 和伪 Token 数据训练模型，以及基于一致性学习的方法使用无监督正则化从 Token 和未标注数据中学习。尽管这些方法可以通过利用未标注数据来提高性能，但在标注资源极度有限的情况下，完全监督方法之间仍然存在差距。

最近，像Segment Anything Model（SAM）这样的分割基础模型由于在各种语义分割任务上具有强大的泛化能力而受到了广泛关注。尽管最近的研究揭示了SAM在医学图像分割方面的性能有限，因为自然图像和医学图像之间的差异，但它仍然为当手动标注图像稀缺时作为可靠的伪标签生成器开启了新的机会。

在本文中，作者提出了一种简单而有效的方法，探索将SAM作为增强一致性学习半监督医学图像分割框架的额外监督分支，该框架在标注资源极度有限的情况下进行。具体而言，分割模型为SAM提供信息，用于定位和生成指向SAM的提示点。除了优化分割模型，基于 Token 案例的监督分割损失和基于未标注案例的一致性损失，作者还利用SAM和分割模型之间的预测一致性作为额外的监督信号，以辅助学习过程。通过在两个半监督学习框架下对左心房（LA）数据集[17]进行实验，SAM的辅助显著增强了分割性能，尤其是在只有一张或几张 Token 图像的情况下。

2 Method

w~视觉~合集22~SAM_SAM_08

w~视觉~合集22~SAM_视觉_09

3 Experiments

Dataset and Implementation Details

w~视觉~合集22~SAM_视觉_10

Comparison with Other Segmentation Methods

在本节中，作者在左心房分割数据集[17]上对基于训练的自动分割方法和基于SAM的交互式分割方法进行比较分析。具体而言，由于原始SAM[5]是基于2D图像进行分割的，因此提示应在每个包含目标目标的切片上给出，以获得整个3D图像的分割。

w~视觉~合集22~SAM_SAM_11

表1展示了不同方法在测试集上的分割性能。对于基于SAM的交互式分割方法，可以观察到，提示点数增加会导致分割性能提高。此外，通过利用体积信息，SAM-Med3D在提示点数显著较少的情况下，表现优于经典SAM。尽管这些方法可以在不需要像素/ Voxel 级训练标注数据的情况下实现零样本分割，但仍需要大量的手工工作来 Token 每个测试图像的足够提示点，以获得可接受的性能。对于基于训练的自动分割方法，随着 Token 训练数据的数量增加，分割性能会增加。然而，当只有一个或几个 Token 图像可用时，性能远落后于完全监督性能。作者的方法可以利用SAM作为额外的监督信号，不需要手动提示来辅助学习过程，并进一步提高现有半监督框架的性能。

w~视觉~合集22~SAM_SAM_12

表2显示了SemiSAM在两种半监督框架上的性能，即平均教师（MT）[14]和不确定性感知平均教师（UA-MT）[19]，以及不同数量的 Token 图像。利用SAM作为额外的正则化分支进一步提高了现有半监督方法的性能，在仅使用1，2和4个 Token 案例的情况下， dice 相似系数提高了10.78％，11.29％和8.02％。然而，作者观察到，当相对大量的 Token 数据可用（8个/10％）时，仅仅强制SAM和半监督分割模型的输出之间的一致性并不能显著提高或甚至导致分割性能下降，因为在这样的场景下，基于训练的分割方法的表现超过了基于SAM的零样本分割方法。

4 Conclusion and Discussion

在本文中，作者提出了一种简单而有效的方法，探索在标注资源极度有限的场景中，将SAM作为增强一致性学习半监督医学图像分割框架的额外监督分支的使用。与基于 Token 案例的经典监督分割损失和基于未标注案例的无监督一致性损失不同，作者利用SAM和半监督分割模型之间的预测一致性作为额外的监督信号，以辅助学习过程。通过在左心房MRI分割数据集上进行评估，SemiSAM进一步提高了两个现有半监督框架的分割性能，尤其是在极有限标注场景下，即只有1或几个 Token 数据可用时。作者的工作为在获取 Token 数据困难且昂贵的医学图像分割领域提供了新的见解。

#TinySAM

华为诺亚实验室+中科大提出提出了一种框架，在保持强大的零样本性能的同时，获得一个微小的分割 anything 模型（TinySM）。比SAM小10倍，但是依旧完成了精度的超车！

最近，Segment Anything Model (SAM) 已经展示出了强大的分割能力，在计算机视觉领域引起了广泛关注。基于预训练的 SAM 的大量研究工作已经开发了各种应用，并在下游视觉任务上取得了令人印象深刻的性能。然而，SAM 包含重的架构，需要大量的计算能力，这阻碍了 SAM 在计算受限的边缘设备上的进一步应用。

为此，在本文中提出了一种框架，在保持强大的零样本性能的同时，获得一个微小的分割 anything 模型（TinySAM）。作者首先提出了一种全阶段知识蒸馏方法，采用在线硬提示采样策略来蒸馏一个轻量级的的学生模型。作者还适应了后训练量化到可提示的分割任务，并进一步降低了计算成本。

此外，作者提出了一种分层的分割 everything 策略，以将 everything 推理加速 2 倍，几乎不降低性能。通过所提出的所有方法，作者的 TinySAM 导致计算减少了数个数量级，并推动了高效分割 anything 任务的极限。在各种零样本迁移任务上的广泛实验表明，作者的 TinySAM 与对应方法相比具有显著的优势。

预训练模型和代码:

Pytorch：https://github.com/xinghaochen/TinySAMMindS
pore：https://gitee.com/mindspore/models/

1 Introduction

物体分割是计算机视觉领域的一个重要且基础的任务。广泛的视觉应用，如物体定位和验证，都依赖于准确的快速物体分割。许多先前的研究工作都关注于分割任务，包括语义分割，实例分割和全景分割。最近，Kirillov 引入了一个强大的分割 anything 模型（SAM），以及一个大规模的分割数据集 SA-1B，该数据集包含了 11 亿张图像上的超过 10 亿个Mask。具有任意形状和类别的目标的强大的分割能力，SAM 已成为许多下游任务的基础框架，如物体跟踪，图像修复和 3D 视觉。此外，SAM 的强大零样本分割能力使医学影像等数据较少的研究领域受益。

尽管 SAM 在下游视觉任务上取得了令人印象深刻的性能，但复杂的架构和巨大的计算成本使得 SAM 在资源受限的设备上部署起来困难。SAM 模型对 1024×1024 图像的推理时间在现代 GPU 上可以达到 2 秒。一些最近的努力试图获得更高效的分割 anything 模型。例如，MobileSAM 试图用 TinyViT 轻量级架构替换图像编码器的重量组件。

但是，它只通过与教师网络的图像嵌入的解耦知识蒸馏策略，使用紧凑的图像编码器网络进行训练。这种部分训练策略不可避免地导致性能衰减，而没有最终Mask预测的监督。FastSAM 将分割 anything 任务转移到具有一个 foreground 类别的实例分割任务，与 Yolov8 配合使用。为了实现可提示的分割，FastSAM 应用了一种后处理策略与实例分割网络相结合。然而，这种改写的框架无法在下游零样本任务上达到与 SAM comparable 的性能。

为了进一步推动高效分割 anything 模型的极限，本文提出了一种完整的框架来获得 TinySAM，在降低计算成本的同时，尽可能地保持零样本分割能力。具体来说，作者提出了一种全阶段的知识蒸馏方法，以提高紧凑学生网络的能力。学生网络以端到端的方式，在教师网络不同阶段的监督下进行蒸馏。

此外，作者提出了一种在线硬提示采样策略，使蒸馏过程更加关注硬例子，从而提高最终性能。作者还将后训练量化适应到可提示的分割任务，并进一步降低计算成本。此外，作者发现，由于需要从网格提示点生成大量Mask，在图像上分割 everything 需要巨大的计算成本。

为此，作者提出了一种分层的分割 everything 策略，将 everything 推理加速 2 倍，几乎不降低性能。通过所提出的所有方法，作者的 TinySAM 导致了计算减少了数个数量级，并推动了高效分割 anything 任务的极限。例如，与原始 SAM 相比，TinySAM 可以实现 100 倍的加速。在各种零样本迁移任务上的广泛实验表明，作者的 TinySAM 与对应方法相比具有显著的优势。

2 Related Work

Segment Anything Model

最近提出的分割 anything 模型（SAM）在目标分割和下游视觉任务中证明了其通用性和灵活性。SAM 由三个子网络组成，即图像编码器、提示编码器和Mask解码器。图像编码器是一个基于重视觉 Transformer 的网络，它将输入图像提取成图像嵌入。提示编码器设计用于编码输入点、框、任意形状的Mask和自由形式文本，并使用位置信息。

几何提示和文本提示分别使用不同的网络进行处理。Mask解码器包含一个双向 Transformer ，将图像编码器和提示编码器的输出用于生成最终的Mask预测。与提出的 SA-1B 数据集相结合，该数据集包含 1.1 亿张高分辨率图像和超过 10 亿个高质量分割Mask，SAM 展示了针对任何类别和形状目标的令人印象深刻的高质量分割能力。

此外，SAM 在零样本下游视觉任务上展示了强大的泛化能力，包括边缘检测、目标 Proposal 、实例分割和文本到Mask预测。由于灵活的提示模式和高质量分割能力，SAM 被认为是视觉应用的基础模型。然而，SAM，尤其是图像编码器网络，包含大量参数，需要高计算能力进行部署。因此，在资源受限的边缘设备上应用 SAM 并不容易。SAM 的压缩和加速已成为一个重要的研究主题[49, 50]。

Knowledge Distillation

Hinton等人提出了一种知识蒸馏方法，通过教师网络的输出来监督轻量级学生网络的训练。自那时以来，知识蒸馏已成为在训练过程中改进紧凑网络性能的重要方法。知识蒸馏方法可以大致分为两类，即针对网络输出的蒸馏和针对中间特征的蒸馏。大多数关于知识蒸馏方法的研究都集中在图像分类任务上。后续的工作提出了用于高级计算机视觉任务（如目标检测和语义分割）的知识蒸馏方法。Zhang等人提出使用蒸馏方法来获得一个高效的分割 anything 模型（MobileSAM）。

然而，MobileSAM只使用图像和原始 SAM 的相应图像和图像嵌入来监督图像编码器网络。这种部分蒸馏策略可能导致轻量级学生网络从教师网络或Token数据中没有指导，无法获得Mask Level 信息，从而造成相当大的性能下降。

Quantization

模型量化也是常用的模型压缩方法之一，它将更高位宽的重量或激活值量化到较低位宽，以减少存储要求和计算复杂性，同时允许有限的准确性损失。模型量化方法可以分为两类，量化感知训练（QAT）和后训练量化（PTQ）。

QAT 方法需要一个带有标签的训练数据集和大量的训练成本，而 PTQ 方法只需要一个小型的无标签校准数据集，因此更加高效。许多先前的 PTQ 方法[30, 38]已经提出，以寻找卷积神经网络（CNN）的适当量化参数。

随着视觉 Transformer （ViT）在各种视觉任务上取得了显著的性能，最近的工作研究了如何将后训练量化应用于基于 ViT 的模型，并已使用 8 位量化配置实现了强大的性能。然而，对于提示性分割任务，尤其是分割 anything 模型，量化尚未得到充分探索。

3 Methodology

Overview of TinySAM

本文提出了一种框架，以获取高度高效的 SAM，如图 1 所示。

w~视觉~合集22~SAM_SAM_13

首先，在 3.2 节中，作者引入了一种专门为 SAM 设计的全阶段知识蒸馏。为了进一步激活蒸馏过程，作者使用了在线硬提示采样，以挖掘教师网络到学生网络之间的硬知识。其次，在 3.3 节中描述的后训练量化方法被适应到可提示分割任务，并应用于轻量级学生网络。第三，在 3.4 节中描述的分层 everything 推理模式被设计为分割 anything 任务，可以避免只有微小精度损失的巨额冗余计算，并加快推理时间，实现的加速。

Full-Stage Knowledge Distillation

SAM 包括三个子网络，即图像编码器、提示编码器和Mask解码器。图像编码器网络基于视觉 Transformer，消耗大量的计算成本。受到 MobileSAM 的启发，作者使用轻量级 TinyViT 替换原始的沉重图像编码器网络。这种简单的替换存在相当大的性能衰减。因此，作者提出了一种全阶段知识蒸馏策略，在多个知识 Level 上指导轻量级图像编码器在学习过程中。

除了预测结果与真实标签之间的传统损失之外，作者在图 2 中引入了多个在不同阶段的蒸馏损失。

w~视觉~合集22~SAM_SAM_14

w~视觉~合集22~SAM_视觉_15

w~视觉~合集22~SAM_视觉_16

Quantization

w~视觉~合集22~SAM_视觉_17

在矩阵乘法之后经过softmax，输入在区间[0,1]的两端分布不均匀，而GELU 后的特征在正负范围内变化很大。这两种情况都与均匀量化的假设相去甚远，即神经网络中的激活遵循高斯分布。违反这一假设将导致高量化误差。因此，作者将特征分为两组，并使用两个缩放因子来减少量化误差。

Hierarchical Segmenting Everything

SAM 提出了一个自动Mask生成器, 以网格方式采样点来分割 everything。然而, 作者发现密集点网格会导致过细粒度的分割结果, 并占用大量的计算资源。一方面, 对于完整的目标, 过多的采样点可能会导致目标的某些不同部分被错误地分割为独立的Mask。另一方面, 由于图像编码器已经大幅缩减, everything 模式推理的时间成本主要在Mask解码器部分。

w~视觉~合集22~SAM_SAM_18

w~视觉~合集22~SAM_视觉_19

4 Experiments

Implementation Details

w~视觉~合集22~SAM_SAM_20

Zero-Shot Instance Segmentation

对于零样本实例分割任务，作者严格遵循 SAM 的实验设置，并使用 ViTDet-H 的目标检测结果作为实例分割的边界提示。作者在 COCO 数据集和 LVIS v1 数据集的基准上评估了零样本实例分割任务，并与不同的 SAM 变体以及先前的有效模型（如 FastSAM 和 MobileSAM）进行了比较。

w~视觉~合集22~SAM_SAM_21

如表 1 所示，与先前的方法相比，作者提出的 TinySAM 获得了优越的性能。具体而言，作者的 TinySAM 在 FLOPs 和实例分割精度方面超过了 FastSAM，即仅需 67% 的 FLOPs，即可实现约 4% AP 提升。

在相同的计算成本下，作者的 TinySAM 在 COCO 数据集上比 MobileSAM 实现了 0.9%+ 的 AP，而在 LVIS v1 数据集上实现了 1.6%+ 的 AP。作者的 W8A8 量化变体 TinySAM（Q-TinySAM）在不同方法之间的性能也具有竞争力。

w~视觉~合集22~SAM_视觉_22

具体而言，Q-TinySAM 在 COCO 数据集上比 MobileSAM [49] 实现了 0.3%+ 的 AP，仅需 26% 的 FLOPs。作者在 COCO 验证集上的部分视觉结果如图 5 所示。与 SAM 变体的其他有效变体相比，作者提出的 TinySAM 捕获了更清晰的边界。

Zero-shot Points Valid Mask Evaluation

在这个部分, 作者评估了作者的 TinySAM 在使用多个点作为提示分割物体的性能。作者使用与先前工作相同的点选择指标, 该指标计算假阳性和假阴性Mask的距离变换, 然后以最大值采样点。作者计算每个数据集的 mIoU 来评估不同模型的性能。

w~视觉~合集22~SAM_SAM_23

Everything Mode Acceleration

w~视觉~合集22~SAM_视觉_24

w~视觉~合集22~SAM_视觉_25

图 6 显示了点网格策略与所提出分层策略之间的视觉比较。作者可以发现，所提出的分层策略在某些情况下避免了目标的过度细分，从而弥补了 IoU 的一些损失。更高效的 everything 模式推理的更多视觉结果如图 8 所示。

w~视觉~合集22~SAM_SAM_26

Ablation Studies

在本节中，作者在 COCO 验证数据集上进行零样本实例分割任务的 ablation 研究。实验设置与第 4.2 节相同。

不同模块的影响。作者首先分别评估了不同模块的影响，即全阶段知识蒸馏损失、在线硬提示采样和后量化。

w~视觉~合集22~SAM_SAM_27

如图 7 所示，作者展示了为全阶段知识蒸馏设计的硬提示采样的采样过程。星号表示具有不同迭代次数的采样点。经过一些迭代，采样区域更接近目标Mask的边缘，这使得提示相对更难让学生网络学习。

不同蒸馏损失的影响。对于详细的全阶段知识蒸馏过程，作者研究了从教师网络进行三层蒸馏的必要性。表 4 显示了不同蒸馏损失组合的 ablation 结果。输出蒸馏损失起着重要作用，因为它接近监督信息，并且与教师网络的相似性直接反映在评估指标中。Token损失和嵌入损失都被证明是有益的，因为它们与教师网络的关键节点相关，分别反映了图像 Level 的信息和提示与图像之间的交互。

w~视觉~合集22~SAM_视觉_28

不同的量化位数。作者在这里探索不同的量化位数的影响。表 5 报告了在 COCO 数据集上的平均精确度。从结果中，作者可以得出结论，将量化位数提高到 8 位只会导致轻微的性能下降。作者还通过进一步减少量化位宽到 6 位来演示性能。

w~视觉~合集22~SAM_SAM_29

5 Conclusion

在本文中，作者提出了一种框架，以推动分割 anything 任务的极限并获取一个高度高效的模型，命名为 TinySAM。作者首先提出了一种全阶段知识蒸馏方法，采用在线硬提示采样策略来蒸馏一个轻量级的学生模型。作者还适应了后训练量化到可提示的分割任务，并进一步降低了计算成本。

此外，作者提出了一种分层的分割 everything 策略，可以将 everything 推理加速 2 倍，几乎不降低性能。通过所提出的所有方法，作者的 TinySAM 导致了计算减少了数个数量级，并推动了高效分割 anything 任务的极限。在各种零样本迁移任务上的广泛实验表明，作者的 TinySAM 与对应方法相比具有显著的优势。作者希望能够提出的 TinySAM 为设计一个高度高效的分割 anything 模型带来有益的视角。

Appendix

w~视觉~合集22~SAM_视觉_30

图 9 展示了在 LVIS v1 数据集上的零样本实例分割。为了清晰地呈现，只显示 VitDet-H 分数高于 0.8 的检测框。LVIS 数据集的标签比 COCO 数据集更细致，在考虑准确性和效率方面，所提出的 TinySAM 显示了更大的优势。

w~视觉~合集22~SAM_视觉_31

图 10 显示了通过提出的 TinySAM 模型进行分层 everything 推理和其对应算法的结果。TinySAM 捕获了清晰的边界并产生了更细粒度的Mask，而 MobileSAM 和 FastSAM 有时会产生人造的边界和Mask。TinySAM 显示了更接近原始 SAM 的性能，同时消耗了显著更少的计算成本。