分割|语义相关(8篇)
【1】 SAIR: Learning Semantic-aware Implicit Representation
标题:SAIR:学习语义感知的隐式表征
https://arxiv.org/abs/2310.09285
图像的隐式表示可以将连续域中的任意坐标映射到其对应的颜色值,表现出强大的图像重建能力。然而,现有的隐式表示方法只注重建立连续的外观映射,忽略了跨像素的语义信息的连续性。因此,当输入图像中的语义信息被破坏时,例如,大区域丢失时,它们很难达到期望的重建结果。为了解决这个问题,我们提出了学习语义感知隐式表示(SAIR),也就是说,我们使每个像素的隐式表示依赖于它的外观和语义信息(例如,像素属于哪个对象)。为此,我们提出了一个包含两个模块的框架:(1)为大区域缺失的受损图像建立语义隐式表示(SIR)。给定连续域中的任意坐标,我们可以获得其各自的文本对齐嵌入,指示像素所属的对象。(2)基于所述SIR构建外观隐式表示(AIR)。给定连续域中的任意坐标,我们可以重建其颜色,无论输入中是否丢失像素。我们验证了新的语义感知的隐式表示方法的图像修复任务,广泛的实验表明,我们的方法超越了国家的最先进的方法的显着保证金。
【2】 Equirectangular image construction method for standard CNNs for SemanticSegmentation
标题:一种用于语义分割的标准CNN等矩形图像构建方法
https://arxiv.org/abs/2310.09122
360{\deg}球面图像具有视场宽的优点,通常投影在平面上进行处理,称为等距柱状图像。 等距柱状图像中的物体形状可能会扭曲并且缺乏平移不变性。 此外,带有标签的等距柱状图像的公开数据集很少,这对标准 CNN 模型有效处理等距柱状图像提出了挑战。 为了解决这个问题,我们提出了一种将透视图像转换为等距柱状图像的方法。 采用球心投影和等距圆柱投影的逆变换。 这使得标准 CNN 能够学习等距柱状图像中不同位置的畸变特征,从而获得语义上等距柱状图像的能力。 参数 {\phi} 决定了透视图像的投影位置,已使用各种数据集和模型(例如 UNet、UNet++、SegNet、PSPNet 和 DeepLab v3+)进行了分析。 实验表明,对于标准 CNN,等距柱状图像有效语义分割的最佳 {\phi} 值为 6{\pi}/16。 与其他三类方法(监督学习、无监督学习和数据增强)相比,本文提出的方法具有最佳的平均 IoU 值,达到 43.76%。 该值分别比其他三种方法高23.85%、10.7%和17.23%。
【3】 Re-initialization-free Level Set Method via Molecular Beam Epitaxy Equation Regularization for Image Segmentation
标题:基于分子束外延方程正则化的免重新初始化水平集图像分割方法
https://arxiv.org/abs/2310.08861
变分水平集方法由于能够处理复杂的拓扑变化,并在演化过程中保持连续性和光滑性,成为图像分割的有力工具。然而,它的演变过程可能是不稳定的,这会导致过度平坦或过度锐化的轮廓和分割失败。为了提高演化的精度和稳定性,我们提出了一种结合分子束外延(MBE)方程正则化的高阶水平集变分分割方法。该方法利用分子束外延过程中的晶体生长来限制水平集函数的演化,从而避免了演化过程中的重新初始化,调节了分段曲线的光滑度。它也适用于具有强度不均匀性的噪声图像,这是图像分割中的一个挑战。为了求解变分模型,推导了梯度流,设计了标量辅助变量(SAV)格式和快速傅里叶变换(FFT),与传统的半隐半显格式相比,该格式可以显著提高计算效率。数值实验表明,该方法能够生成平滑的分割曲线,保留精细的分割目标,并能获得稳健的小目标分割结果。与现有的水平集方法相比,该模型在精度和效率上都是最先进的。
【4】 Revisiting Multi-modal 3D Semantic Segmentation in Real-world Autonomous Driving
标题:真实世界自主驾驶中的多模式3D语义分割
https://arxiv.org/abs/2310.08826
LiDAR和摄像头是多模态3D语义分割的两个关键传感器,应该有效和鲁棒地融合,以保证在各种现实场景中的安全性。然而,现有的多模式方法面临两个关键挑战:1)难以有效部署和实时执行;以及2)在LiDAR和相机之间的弱校准下的急剧性能下降。为了应对这些挑战,我们提出了CPGNet-LCF,这是一个新的多模态融合框架,扩展了仅限LiDAR的CPGNet。CPGNet-LCF通过继承CPGNet的简单部署和实时功能解决了第一个挑战。对于第二个挑战,我们在训练过程中引入了一种新的弱校准知识蒸馏策略,以提高对弱校准的鲁棒性。CPGNet-LCF在nuScenes和SemanticKITTI基准测试中实现了最先进的性能。值得注意的是,它可以轻松部署,使用TensorRT TF 16模式在单个Tesla V100 GPU上以每帧20毫秒的速度运行。此外,我们基准性能超过四个弱校准水平,证明了我们提出的方法的鲁棒性。
【5】 SAM-guided Unsupervised Domain Adaptation for 3D Segmentation
标题:基于SAM引导的无监督区域自适应三维分割
https://arxiv.org/abs/2310.08820
3D分割任务中的无监督域自适应(UDA)提出了一个艰巨的挑战,主要源于点云数据的稀疏和无序性质。特别是对于LiDAR点云,在不同的捕获场景、波动的天气条件和使用的各种LiDAR设备中,域差异变得明显。虽然以前的UDA方法经常试图通过对齐源域和目标域之间的特征来减轻这种差距,但由于大量的域变化,这种方法在应用于3D分割时不足。受视觉基础模型SAM在图像分割领域所表现出的卓越泛化能力的启发,我们的方法利用SAM中嵌入的丰富的一般知识来统一不同3D域的特征表示,并进一步解决3D域自适应问题。具体而言,我们利用与点云相关联的相应图像来促进知识转移,并提出了一种创新的混合特征增强方法,该方法显着增强了3D特征空间与SAM特征空间之间的对齐,在场景和实例级别上操作。我们的方法在许多广泛认可的数据集上进行了评估,并达到了最先进的性能。
【6】 DeltaSpace: A Semantic-aligned Feature Space for Flexible Text-guided Image Editing
标题:DeltaSpace:一种面向灵活文本制导图像编辑的语义对齐特征空间
https://arxiv.org/abs/2310.08785
文本引导的图像编辑面临着训练和推理灵活性的重大挑战。许多文献收集了大量的带注释的图像-文本对,从头开始训练文本条件生成模型,这是昂贵的,效率不高。在此之后,提出了一些利用预训练的视觉语言模型来避免数据收集的方法,但它们也受到每个文本提示优化或推理时间超参数调整的限制。为了解决这些问题,我们调查和确定一个特定的空间,称为CLIP DeltaSpace,其中两个图像的CLIP视觉特征差异与其相应的文本描述的CLIP文本特征差异在语义上对齐。基于DeltaSpace,我们提出了一个新的框架称为DeltaEdit,它映射的CLIP视觉特征差异生成模型的潜在空间方向在训练阶段,并预测潜在的空间方向从CLIP文本特征差异在推理阶段。这种设计赋予DeltaEdit两个优势:(1)无文本培训;(2)推广到各种文本提示的zero-shot推理。大量的实验验证了DeltaEdit的有效性和通用性与不同的生成模型,包括GAN模型和扩散模型,在实现灵活的文本引导的图像编辑。代码可在https://github.com/Yueming6568/DeltaEdit上获得。
【7】 SSG2: A new modelling paradigm for semantic segmentation
标题:SSG2:一种新的语义分词建模范式
https://arxiv.org/abs/2310.08671
最先进的语义分割模型主要对单个静态图像进行操作,生成相应的分割掩码。这种一次性方法几乎没有误差校正的空间,因为模型缺乏整合多个观测值以提高准确性的能力。受语义变化检测工作的启发,我们通过引入一种方法来解决这一限制,该方法利用了为每个静态输入图像生成的一系列可观察量。通过增加这个“时间”维度,我们利用序列中连续观测之间的强信号相关性来降低错误率。我们的框架,被称为SSG 2(语义分割第二代),采用了双编码器,单解码器的基础网络与序列模型增强。基础模型学习预测来自双输入图像的标签的集合交集、并集和差集。给定固定的目标输入图像和一组支持图像,序列模型通过合成来自每个序列步骤的部分视图并滤除噪声来构建目标的预测掩模。我们在三个不同的数据集上评估SSG 2:UrbanMonitor,采用澳大利亚达尔文的正射影像图块,具有五个光谱波段和0.2米空间分辨率;波茨坦摄影测量和遥感学会,其中包括具有多个光谱带和5厘米地面采样距离的真实正射影像;和ISIC 2018,一个专注于皮肤病变分割的医学数据集,特别是黑色素瘤。SSG 2模型在最初的几十个历元内表现出快速收敛,并且在相同数量的梯度更新下显著优于类似UNet的基线模型。然而,时间维度的添加导致增加的存储器占用。虽然这可能是一个限制,但它被更高内存GPU和编码优化的出现所抵消。
【8】 Ultrasound Image Segmentation of Thyroid Nodule via Latent Semantic Feature Co-Registration
标题:基于潜在语义特征共配准的甲状腺结节超声图像分割
https://arxiv.org/abs/2310.09221
甲状腺超声图像中结节的分割在甲状腺癌的检测和治疗中起着至关重要的作用。然而,由于不同医院的扫描仪供应商和成像协议的多样性,在医学图像分割领域已经表现出专家级准确性的自动分割模型,发现其准确性降低,作为其弱泛化性能的结果,当应用于临床现实环境。为了解决这个问题,本文提出了ASTN,通过一种新型的共配准网络实现甲状腺结节分割的框架。该框架通过提取图谱和目标图像中的潜在语义信息,利用深度特征实现甲状腺超声图像中结节的配准,既保证了解剖结构的完整性,又降低了不同设备造成的图像整体差异对分割的影响。此外,本文还提出了一种图谱选择算法,以减轻配准的困难。从不同设备的数据集收集的评估结果显示,由于我们提出的方法,模型的泛化能力得到了很大的提高,同时保持了较高的分割精度。