RangeNet++: Fast and Accurate LiDAR Semantic Segmentation
https://www.ipb.uni-bonn.de/wp-content/papercite-data/pdf/milioto2019iros.pdf
RangeNet++
RangeNet++是一种基于球面投影的点云分割模型,处理步骤如下:
(A)球面投影将输入点云转换为距离图像表示
先将每个点映射到球坐标,最后再到图像坐标,定义如下(注意
,原论文
有误):
其中为图像坐标,
为所期望的距离图像的高度和宽度。
是传感器的垂直视场(field-of-view),
为每个点的距离。
这个过程产生了一个以为索引的距离图像,距离图像每个像素(
)可能对应多个点坐标(
),深度(depth)
和反射强度remission,取其中最小的
及其对应的
和remission。最终创建一个
的张量。
把所有3D点和之间的映射表将被保存起来,用于后面的(C )和(D)。
(B)二维全卷积语义分割
只对图像的Width(水平方向)进行上采样和下采样。损失函数为:
为各个类别的频率。频率越大,权重越小。
(C)用距离图像重建点云
为了推断出语义云表示中所有的原始点,我们使用在(A)中保存的3D点和之间的映射表得到其对应的分割标签。
(D)点云后处理
将标签重投影到原始点云中,对应同一个距离图像的像素的两个或多个点可能被赋予相同的语义标签。这将导致重投影问题,如图:
距离图像(左)中的栅栏和汽车都被赋予了合适的语义标签,但将语义重投影到原始点(右)时,标签也被投影形成“阴影”(图中橙色虚线)。
为了解决重投影导致的问题,RangeNet++使用了一种快速的、支持GPU的k近邻(kNN)搜索,它根据预测标签和距离图像来代替(C)对点云进行后处理分割。
在的距离图像上,分别以每个2D像素(
个)作为窗口中心,用一个大小为
的窗口取出其邻近像素并以列的形式存储。这将得到一个为
的矩阵
。
距离图像不能表示所有的点(一个像素对应多个点),因此根据点和之间的映射表将
扩展到一个维数为
的矩阵
(
的列被重复提取)。
通过距离图像得到的,所以
的列中心不表示实际点的距离值。因此,我们将矩阵的中心行替换为每个点的实际距离。
这个步骤类似于2-7行,但是它不是获取距离图像邻近像素的距离,而是它们的预测标签。最终得到每个点的标签矩阵
计算出每个近邻候选点到实际点的距离(近邻像素的距离值减去实际中心点到原点距离,并取绝对值)。得到一个
矩阵
。
反高斯核对距离进行加权,离越远,
越大,
也越大。
为每一列的个候选项找到
个最近邻点,得到
邻域中加权距离最小的
个点的索引。
筛选个近邻点距离小于阈值(cut-off)的点,并根据筛选得到的点标签对各个类别进行投票。该操作生成一个
矩阵
,其中
是语义类别数,每一列为该点属于各个类的票数。
根据投票结果选择最高票类作为点的语义标签,输出的向量。
该算法需要设置四个超参数:
- S:搜索窗口的大小
- k:近邻数
- cut-off:距离阈值
:反高斯函数的标准差。