DRINet: A Dual-Representation Iterative Learning Network for Point Cloud Segmentation
Ye 等人(2021)
DRINet: 用于点云分割的双重呈现迭代学习网络
DRINet主要由稀疏点体素特征提取和稀疏体素点特征提取两个模块组成。通过迭代地利用这两个模块,可以在两种不同的表示之间传播特征。我们进一步提出了一种新颖的多尺度池化层,用于逐点局部学习,以改善上下文信息传播。
图 2.
3D 语义分割任务的三种常见结构(基于点的架构、基于体素的架构、基于点体素的架构)以及与我们提出的架构相比的差异。注意红线的箭头方向代表双分支迭代集成。
3.方法
在本节中,我们介绍了我们的DRINet,它集成了点和体素表示的优点,以提高点云分割性能,同时保持高计算效率。整个网络如图3所示,由四个部分组成:1)几何感知特征提取2)稀疏体素点特征提取3)稀疏点体素特征提取和4)迭代双表示学习。稀疏点体素特征提取层以逐点特征作为输入,输出体素特征,形成具有更多层次信息的稀疏体素特征图。然后,稀疏体素点特征提取层将体素特征作为输入,生成高质量的逐点特征。这两个块可以迭代地执行不同表示之间的转换,即迭代双表示学习。
3.1. GAFE:几何感知特征提取
数据表示。点云可以用无序点集f表示{p1,p2,..., pN } 其中 pi ∈ R d, 包括点坐标 ci = (xi , yi , zi) 以及相关的点特征(例如强度)。
体素化。我们引入体素化过程来构建两个表示之间的映射关系。定义点云被离散成许多体素,分辨率为 L × W × H 和 NV 非空体素数。给定一个点 pi ,我们计算其在网格尺度 s 下的体素索引
其中 是floor函数,s是指每个体素沿xyz方向的尺寸。
分散 Φ s P!V 并收集 Φ s V!P 。现在已经建立了点 p 和体素 v 之间的坐标空间的映射系统以用于索引。我们定义了两种灵活的操作 Scatter Φ s P!V 和 Gather Φ s V!P 来进行转换
图3.第一行是DRINet的整个网络结构。它包括两个主要模块,1)几何感知特征提取,2)点和体素分支。第二行描述了点和体素分支的过程,包括稀疏点体素特征提取(SPVFE)和稀疏体素点特征提取(SVPFE)。 a) SVPFE 通过体素特征的注意力收集层生成点特征。 b) SPVFE 使用多尺度池化层从逐点特征生成目标尺度的体素特征。