0
点赞
收藏
分享

微信扫一扫

论文解读 | IROS 2021 | PTT:用于点云中3D单对象跟踪的点-轨道-变压器模块

原创 | 文 BFT机器人

论文解读 | IROS 2021 | PTT:用于点云中3D单对象跟踪的点-轨道-变压器模块_数据


01 背景

在自动驾驶、机器人导航和增强现实等领域,3D单目标跟踪是一个重要的问题。


传统的方法通常使用基于图像或激光雷达数据的2D或3D物体检测器来检测和跟踪目标。然而,这些方法通常需要大量的计算资源,并且对于复杂场景中的小目标或遮挡目标表现不佳。3D单目标跟踪是指在三维空间中实现对一个移动物体的位置和姿态进行跟踪。然而,由于点云数据的高维度和噪声等问题,3D单目标跟踪一直是一个具有挑战性的问题。


为了改进3D单目标跟踪的性能,本论文提出了一种新的转换器模块称为PTT(Pointcloud Transformer)。


该模块基于转换器的自注意力机制和位置编码机制,旨在提取和加权点云中的特征。转换器是一种神经网络模型,最初用于自然语言处理任务,如机器翻译和语言模型。它具有强大的建模能力和上下文感知能力。在本论文中,这种转换器模块被应用于点云数据,以捕捉点云中点之间的关系并自适应地获取重要的特征信息。PTT模块通过自注意力机制使每个点能够根据其与其他点之间的关系自适应地加权特征。同时,引入位置编码机制有助于模型理解点云数据的空间结构。



02  创新点

1. 提出了一种名为PTT(Point-Track-Transformer)模块的方法,用于3D单目标跟踪。该模块利用点云特征进行加权,以便在跟踪过程中更加关注深层次的目标线索。


2. 提出了一种名为PTT-Net的3D单目标跟踪网络,其中嵌入了PTT模块,并且可以进行端到端训练。该方法是第一个将Transformer应用于基于点云的3D目标跟踪任务中的工作。


3. 在实验中,作者证明了PTT-Net相对于其他现有方法具有更好的性能表现,在成功率和精度方面都提高了约10%。同时,PTT-Net还可以以40FPS的速度运行。



03  算法具体介绍

首先,输入的点云数据经过PointNet++网络进行特征提取。


PointNet++是一种用于处理点云数据的神经网络,它能够对点云数据进行特征提取和处理。


接下来,提取的特征被传递到PTT模块中。


PTT模块利用Transformer的自注意力机制和位置编码机制对点云特征进行加权。通过自注意力机制,模块可以根据点与点之间的关系来自适应地捕捉重要的特征信息,输出特征是输入和残差特征之和。位置编码机制则提供了点云数据中点的位置信息,有助于模型理解点云数据的空间结构。


论文解读 | IROS 2021 | PTT:用于点云中3D单对象跟踪的点-轨道-变压器模块_点云_02

图1  PTT模块的工作原理


加权后的特征被输入到Proposal Generation Network(PGN)中,以生成候选框。PGN网络负责生成潜在的目标候选框,它可以根据加权特征的信息来提供可能包含目标的区域。


在生成的候选框中,选择与实际目标最佳匹配的框,并使用IoU-Net网络计算IoU(Intersection over Union)值。IoU-Net网络用于度量候选框与真实目标框之间的重叠程度,即IoU值。


最后,根据计算得到的IoU值和跟踪历史记录,更新目标的状态,并输出跟踪结果。


这可以包括目标的位置、姿态等信息。整个PTT-Net算法可以进行端到端训练,意味着整个网络可以一起进行训练,而不需要单独训练每个组件。在训练过程中,使用基于随机梯度下降(SGD)的优化器来最小化定义的损失函数,以优化网络的参数和性能。


PTT-Net算法通过结合PointNet++特征提取、PTT模块的自注意力和位置编码、PGN候选框生成和IoU-Net计算IoU值等组件,提供了一种用于3D单目标跟踪的端到端解决方案。


论文解读 | IROS 2021 | PTT:用于点云中3D单对象跟踪的点-轨道-变压器模块_点云_03

图2  PTT 模块架构


论文解读 | IROS 2021 | PTT:用于点云中3D单对象跟踪的点-轨道-变压器模块_3D_04

图3  PTT 网络通道



04  实验

1. 数据集准备:作者使用了KITTI数据集进行实验,该数据集包含了城市道路场景中的各种车辆、行人和自行车等物体的点云数据和图像数据。


2. 网络构建:作者将提出的PTT模块嵌入到开源的最先进方法P2B中,构建了一个名为PTT-Net的新网络。


3. 实验设置:作者在KITTI数据集上进行了实验验证,并与其他现有方法进行了比较。为了适应真实场景的需求,他们将搜索区域设置为以前一帧结果为中心。


论文解读 | IROS 2021 | PTT:用于点云中3D单对象跟踪的点-轨道-变压器模块_数据_05

表1  KITTI数据集中对于汽车类别的性能比较。


表1展示了在KITTI数据集上进行车辆检测任务时,不同模型的性能比较。其中,模型的输入数据包括RGB和LiDAR数据,评价指标包括3D检测成功率、3D检测精度和帧率等。表格中列出了6个模型的性能比较结果,包括AVOD-Tracking、F-Siamese、SC3D、P2B、3D-SiamRPN和PTT-Net。其中,PTT-Net在所有指标上均取得了最好的性能表现。


论文解读 | IROS 2021 | PTT:用于点云中3D单对象跟踪的点-轨道-变压器模块_3D_06

表2  不同类别的广泛比较


表2展示了在不同目标类别上进行目标跟踪任务时,不同模型的性能比较。其中,“Ped”表示“Pedestrian”,即行人目标。评价指标包括成功率和精度等。表格中列出了4个模型的性能比较结果,包括P2B、3D-SiamRPN、PTT-Net和其他方法。其中,PTT-Net在所有指标上均取得了最好的性能表现,并且在非刚性物体(如行人)跟踪方面取得了显著的改进。


论文解读 | IROS 2021 | PTT:用于点云中3D单对象跟踪的点-轨道-变压器模块_3D_07

图4  


图4展示了使用PTT模块和不使用PTT模块进行分类和跟踪的结果。其中,如果一个点的得分更高,那么它将受到更多的关注。与(b)相比,(a)中的PTT模块更加关注前景点。与(d)相比,(c)中的PTT模块在拥挤场景(有多个行人)中仍然可以稳健地跟踪目标。


论文解读 | IROS 2021 | PTT:用于点云中3D单对象跟踪的点-轨道-变压器模块_点云_08

图5


图5展示了刚性和非刚性情况下的注意力得分示例,以及根据前景点数量将情况分为易于和困难的情况。可以明显看出,PTT模块可以引导跟踪器关注前景点,即使它们很少或与其他点非常相似。



05  总结

提出的基于Transformer网络的3D单目标跟踪方法(PTT-Net)在KITTI数据集上取得了优秀的性能表现,比现有最先进方法具有更高的准确性和鲁棒性。


该方法利用Transformer中的自注意力机制和位置编码机制对点云特征进行加权,以便更好地关注目标物体。同时,该方法还可以进行端到端训练,具有较高的实时性和可扩展性。因此,本论文认为基于Transformer网络的3D单目标跟踪方法是一种有效且有前途的解决方案。


标题

PTT: Point-Track-Transformer Module for 3D Single Object Tracking in Point Clouds



本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。

举报

相关推荐

0 条评论