51c自动驾驶~合集29-CFANZ编程社区

#DVLO

双向对齐！助力视觉/激光雷达里程计新突破

视觉数据和激光雷达数据中的信息具有很好的互补性，这些信息来自于图像的精细纹理和点云的大量几何信息。然而，探索有效的视觉-激光雷达融合仍面临挑战，这主要是由于两种模态之间内在的数据结构不一致：图像像素是规则而密集的，但激光雷达点是无序而稀疏的。为解决这一问题，我们提出了一种具有双向结构对齐功能的局部到全局融合网络（DVLO）。为了获得局部融合特征，我们将点投影到图像平面上作为聚类中心，并对每个中心周围的图像像素进行聚类。图像像素被预先组织为伪点，用于图像到点的结构对齐。然后，我们通过圆柱投影将点云转换为伪图像（点到图像结构对齐），并在点云特征和局部融合特征之间进行自适应全局特征融合。与单模态和多模态方法相比，我们的方法在KITTI里程计和FlyingThings3D场景流数据集上取得了最先进的性能。代码发布于 https://github.com/IRMVLab/DVLO。关键词视觉-激光雷达里程计 - 多模态融合 - 局部到全局融合 - 双向结构对齐

1.引言

视觉/激光雷达里程计是计算机视觉和机器人学领域中的一项基本任务，用于估计两幅连续图像或点云之间的相对位姿变换。它被广泛应用于自动驾驶、SLAM、导航等领域。最近，多模态里程计越来越受到关注，因为它可以利用不同模态的互补信息，并对非对称传感器退化具有很强的鲁棒性。以往的视觉激光雷达里程计工作可分为两类：传统方法和基于学习的方法。传统方法通过由特征提取、帧到帧特征匹配、运动估计和优化组成的流水线完成里程计任务。然而，由于提取的特征质量差、分辨率低，这些方法存在姿态估计不准确的问题。随着深度学习的发展，一些方法尝试利用基于 CNN 的方法进行视觉-激光雷达融合和姿态估计。然而，特征融合的感受野受到 CNN 的步长和核大小的限制。为了扩大多模态融合的感受野，最近提出了基于注意力的方法，利用交叉注意力机制进行多模态融合。基于注意力的方法可以在全局范围内融合多模态特征，并通过更大的感受野建立跨帧关联，因为它们具有长程依赖性。然而，由于二次计算复杂性，基于注意力的方法通常需要较大的计算消耗和较长的推理时间，这对实时应用提出了挑战。此外，以往基于学习的方法大多采用图 1 a) 所示的唯一特征级融合策略，无法捕捉细粒度像素到点的对应关系。最近，一些网络设计了点到图像的投影和局部特征聚合，如图 1 b)所示，但其性能仍然受到稀疏激光雷达点和密集相机像素之间内在数据结构错位的限制。为了解决这些问题，我们在图 1 c) 中提出了一种具有双向结构对齐功能的新型局部到全局融合网络 (DVLO)。我们的融合模块由两部分组成：1）受文献启发，首先将图像视为一组伪点，与激光雷达点进行细粒度局部融合（图像到点的结构对齐）。2) 点云也通过圆柱投影转换为伪图像，用于全局自适应融合（点到图像结构对齐）。具体来说，我们设计了一种新颖的基于聚类的局部融合模块（Local Fuser）来执行局部精细特征融合。我们首先根据激光雷达点的坐标校准矩阵将其投影到图像平面上，从而找到对应的图像像素点作为聚类中心。然后，在每个聚类中心的一定范围内，根据伪点特征与聚类中心的相似性，动态聚合伪点特征，生成局部融合特征。在全局融合模块中，我们将点云投影到圆柱面上以获得伪图像。然后，利用自适应融合机制将上述局部融合图像特征和点云（伪图像）特征进行全局融合。值得注意的是，我们的融合模块是分层利用图像和点之间的多尺度特征图的。局部融合模块可以提供更精细的点到像素的对应信息，而全局融合则具有更大的感受野，可以实现更多的全局信息交互。

图 1：图像和点云的不同融合策略。之前的大多数研究都只进行全局融合 [53] 或局部融合。我们的 DVLO 设计了一种局部到全局的融合策略，既能促进全局信息的交互，又能保留局部的细粒度信息。此外，我们还设计了双向结构对齐，以最大限度地提高模态间的互补性。

总体而言，我们的贡献如下：1.我们提出了一种具有双向结构对齐功能的局部到全局融合里程测量网络。我们将图像像素视为一组伪点进行聚类，以便与激光雷达点进行局部融合。点云也通过圆柱投影转换为伪图像，用于全局自适应融合。2. 设计了一个纯粹基于聚类的融合模块，以获得细粒度的局部融合特征。据我们所知，我们的方法是首次基于深度聚类的多模态融合尝试，是 CNN 和Transformer之外的另一种高效融合策略。在 KITTI 里程计数据集上进行的大量实验表明，我们的方法在大多数序列上都优于最近所有的深度激光雷达、视觉和视觉激光雷达融合里程计方法。此外，我们的融合策略还能很好地应用于其他多模态任务，如场景流估计，甚至超过了最近的 SOTA 方法 CamLiRAFT。

2.相关工作

深度视觉里程计。最近，基于学习的方法在视觉里程计领域表现出令人印象深刻的性能。开创性的工作使用深度神经网络对单个图像的速度和方向进行里程估算。PoseNet最初采用卷积神经网络（CNN）从输入图像中提取特征，然后估计位姿。DeepVO 采用深度递归神经网络捕捉序列的时间动态和相互依存信息，从而促进对自我运动的估计。Li 等人利用基于预先训练的视觉-激光雷达里程测量的知识提炼技术作为教师，指导视觉里程测量的训练。Deng等人提出了一种具有地图预测和动态消除功能的长期视觉 SLAM 系统。NeRF-VO [40] 通过训练带有体积渲染的辐射场，优化一组关键帧位姿和底层密集几何图形，从而提高了场景表示的几何精度。深度激光雷达里程计。与视觉里程计相比，深度激光雷达里程计仍是一项具有挑战性的任务，因为原始激光雷达点的数量庞大、不规则且稀疏。Nicolai 等人首次将深度学习技术引入激光雷达里程计。他们将三维激光雷达点投影到二维平面上以获得二维深度图像，然后采用二维学习方法进行位姿估计。DeepPCO将点云投影到全景深度图像上，并应用两个子网络分别估计平移和旋转。LO-Net也是通过投影将点转换为二维格式，并利用每个三维点的法线和动态遮罩来进一步提高性能。PWCLO为激光雷达里程计任务引入了 PWC 结构，通过迭代精细化模块分层精细化估计的位姿。EfficientLO提出了一种投影感知算子，用于提高激光雷达里程计的效率。TransLO设计了一种基于窗口的屏蔽点Transformer，以增强全局特征嵌入并去除异常值。DELO引入了激光雷达描述符和预测不确定性的部分优化传输，以实现稳健的位姿估计。NeRF-LOAM将神经辐射场应用于激光雷达里程计系统，在各种环境中显示出卓越的泛化能力。视觉激光雷达里程计。最近，人们越来越关注视觉激光雷达里程计，因为它同时利用了二维纹理和三维几何特征。现有的视觉激光雷达里程计可分为两类：传统方法和基于学习的方法。在传统方法中，V-LOAM利用视觉里程计中的高频估计位姿作为低频激光雷达里程计的运动先验，从而实现精细的运动估计。LIMO利用从激光雷达点获得的深度信息来减轻单目视觉里程计中固有的尺度不确定性。PL-LOAM提供了一种纯视觉运动跟踪方法和一种新型比例校正算法。DV-LOAM是一个 SLAM 框架，包括一个两阶段直接视觉里程测量模块、一个考虑动态物体的激光雷达映射模块以及一个并行全局和局部搜索闭环检测模块。SDV-LOAM将半直接视觉里程计与自适应扫描-映射激光雷达里程计相结合，以解决 3D-2D 深度相关性的难题。在基于学习的方法方面，MVL-SLAM采用了 RCNN 网络架构，将三维激光雷达点的 RGB 图像和多通道深度图像融合在一起。LIP-Loc提出了一种用于跨模态定位的预训练策略，它利用对比学习来联合训练图像和点编码器。

图 2：我们提出的 DVLO 流程图。我们提出了一种新颖的局部到全局（LoGo）融合模块，它由基于聚类的局部融合器和自适应全局融合器组成。位姿最初根据最粗糙融合特征的成本量进行回归，然后根据较浅层的融合特征进行迭代改进。

3.方法3.1总体结构

图 3：我们设计的局部到全局（LoGo）融合模块。我们根据坐标系变换矩阵将点投影到图像平面上作为聚类中心，并将图像转换成一组伪点。然后，我们根据伪点与每个聚类中心的相似性，对伪点特征进行局部聚合。

3.2层次特征提取

点特征提取。由于原始点云的不规则性和稀疏性，我们首先将其投影到一个圆柱面[30, 54]上，以有序地组织点。其对应的二维位置为：

其中，x、y、z 是点云的原始三维坐标，u、v 是投影伪图像上相应的二维像素位置。∆θ 和 ∆ϕ 分别是激光雷达传感器的水平和垂直分辨率。为了充分利用原始三维点的几何信息，我们用相应的原始三维坐标填充每个投影的二维位置。在这种情况下，不仅可以将激光雷达点转换为伪图像结构[26]，以便在第 3.4 节中与图像进行更好的对齐和全局特征融合，而且还可以保留原始的三维几何信息，以便进行有效的特征提取。然后，将图 2 中大小为 HP × WP × 3 的伪图像输入分层特征提取模块，提取多层次点特征 FP∈ RHP ×WP ×D，其中 D 为伪图像特征的通道数。图像特征提取。给定摄像机图像 I∈RH×W ×3，我们利用中基于卷积的特征金字塔提取图像特征 FI∈RHI×WI×C 其中，HI、WI 是特征图的高度和宽度。C 是图像特征的通道数。

3.3 本地融合器模块

受上下文聚类的启发，我们提出了一种基于聚类的通用视觉主干，将图像视为一组点，并对其进行了扩展，提出了一种新颖的基于聚类的特征融合模块（本地融合器），无需任何 CNN 或Transformer。如图 3 所示，该模块可以将图像中更精细的二维纹理和每个聚类中点的几何特征进行局部融合。我们基于聚类的方法还保持了很高的效率，总推理时间仅为基于注意力的方法的一半，如表 7 所示。

3.4 全局融合模块

51c自动驾驶~合集29_自动驾驶

51c自动驾驶~合集29_自动驾驶_02

3.5位姿迭代估计

51c自动驾驶~合集29_自动驾驶_03

51c自动驾驶~合集29_自动驾驶_04

51c自动驾驶~合集29_自动驾驶_05

51c自动驾驶~合集29_自动驾驶_06

其中，姿态残差 ∆ql 和 ∆tl 可根据公式 (9) 和公式 (10) 在最粗糙层中通过类似过程获得。

3.6 损失函数

51c自动驾驶~合集29_自动驾驶_07

51c自动驾驶~合集29_自动驾驶_08

51c自动驾驶~合集29_自动驾驶_09

51c自动驾驶~合集29_自动驾驶_10

51c自动驾驶~合集29_自动驾驶_11

表 1：在 KITTI 里程计数据集上与不同里程计网络的比较。trel 和 rrel 分别指长度为 100、200、...、800 米的 00-10 个子序列上的平均序列平移 RMSE（%）和平均序列旋转 RMSE（◦/100 米）。最佳结果以粗体表示，次佳结果以下划线表示。∗ 表示模型是在 00-08 序列上训练的。

4 实验4.1 KITTI 里程计数据集

我们在 KITTI里程计数据集上对 DVLO 进行了评估。该数据集由 22 个序列的激光雷达点云及其相应的立体图像组成。在本文中，我们仅使用单目左相机图像与激光雷达传感器进行融合。由于只有序列 00-10 才有地面真实位姿（轨迹），因此我们使用这些序列进行训练和测试。表 2：在 KITTI 00-10 序列上与传统视觉-激光雷达里程计的比较。我们的 DVLO 在 00-06 序列上进行了训练。每个序列的最佳结果以粗体表示，次佳结果以下划线表示。

表 3：在 KITTI 09-10 序列上与基于学习的多模态里程计的比较。我们的 DVLO 在 00-06 序列上进行了训练，而其他模型则在 00-08 序列上进行了训练。最佳结果以粗体表示，次佳结果以下划线表示

4.2 实现细节

数据预处理。我们直接输入所有激光雷达点，而不进行下采样。根据激光雷达传感器的测距范围，我们将投影的伪图像大小设置为 64 × 1800。由于摄像头和激光雷达之间存在较大的空间范围差异，我们设计了一个融合掩码，以指示哪些点可以与图像融合。参数。实验在英伟达 RTX 4090 GPU 和 PyTorch 1.10.1 上进行。我们使用 Adam 优化器，β1 = 0.9，β2 = 0.999。初始学习率设为 0.001，每 200000 步指数衰减一次，直到 0.00001。四层的 αl 分别为 1.6、0.8、0.4 和 0.2。可学习参数 kx 和 kq 的初始值分别为 0.0 和 -2.5。评估指标。我们按照 PWCLO [55] 的协议，用两个指标来评估我们的方法：(1) 平均序列平移 RMSE (%)。(2) 平均序列旋转均方根误差（◦/100 米）

4.3 定量结果

与视觉/激光雷达里程计比较。我们将我们的方法与一些具有代表性的视觉里程计（VO）或激光雷达里程计（LO）网络进行综合比较。按照文献[55]中的设置，我们在 00-06 序列上训练我们的模型。表 1 列出了 KITTI 数据集的定量结果。表 1 显示，我们的 DVLO 在大多数序列上都优于所有这些作品。与 DFVO [65] 和 Cho 等人 [6] 等深度视觉里程计相比，我们的方法在序列 07-10 上的平均误差 trel 和 rrel 分别下降了 63.4% 和 43.8%。值得注意的是，尽管这些 VO 方法大多是在较大的数据（00-08）上进行训练的，但我们的方法仍然远远优于它们。与深度激光雷达里程计相比，我们的 DVLO 甚至在大多数序列上都优于最近的 SOTA 方法 EfficientLO [54]。与 EfficientLO 相比，我们的方法具有竞争力的 0.41 ◦/100m 旋转误差。此外，在测试序列上，我们的平均平移误差 trel 与他们相比下降了 4.9%。实验结果证明了我们的视觉-激光雷达融合设计的有效性和巨大潜力。表 4：不同多模态里程计在 KITTI 里程计数据集序列 07-10 上的平均推理时间。

51c自动驾驶~合集29_自动驾驶_12

图 4：我们估计的位姿轨迹。该图显示了我们网络的二维和三维轨迹，以及 KITTI 数据集上的地面真实轨迹。

与传统多模态里程计的比较。我们在整个 KITTI 序列（00-10）上比较了我们的方法和以前的传统多模态里程计的性能。结果如表 2 所示。表 2 显示，在大多数序列上，我们的 DVLO 都优于所有这些作品。与 PL-LOAM [16]相比，我们的方法在序列 00-10 上的平均平移误差 trel 下降了 28.7%。与基于学习的多模态里程计比较。由于大多数深度多模态融合里程计都是在 00-08 序列上进行训练，然后在 09-10 序列上进行测试，因此我们也比较了我们的 DVLO 和其他基于学习的多模态里程计在 09-10 序列上的性能。结果见表 1 和表 3。值得注意的是，尽管我们的模型只在 00-06 序列上进行了训练，但在大多数序列上，我们的方法仍然优于 H-VLO，我们的方法的 trel 和 rrel 分别降低了 47.0% 和 2.3%，这证明了我们提出的融合策略的优越性。

图 5：LOAM 和我们在有地面真实的 KITTI 序列 07 上的轨迹结果。无论是无映射还是有映射，我们的性能都优于 LOAM。

图 6：我们设计的基于局部聚类的融合机制在某个聚类内的可视化效果。红点表示聚类中心的二维位置。黄色区域是每个中心周围的聚类像素。

4.4 推理时间分析

效率是实时 SLAM 系统中另一个极其重要的因素。如表 4 所示，我们将 DVLO 的运行时间与其他多模态里程计方法进行了比较。4 所示，我们将 DVLO 的运行时间与其他多模态里程计方法进行了比较。由于 KITTI 数据集中的激光雷达点是以 10Hz 的频率采集的，以往的多模态方法很少能满足实时应用要求（低于 100 毫秒）。而我们的方法推理时间仅为 98.5 毫秒，具有实时应用的潜力。

4.5 可视化结果

在本节中，我们将根据图 4 中的估计位姿对二维和三维轨迹进行可视化。从图中可以看出，我们的里程计可以很好地跟踪地面真实的轨迹。我们还进行了实验，比较了经典方法 LOAM和我们的轨迹精度和估计误差。可视化结果如图 5 所示。尽管我们设计的里程计只是不带映射的 SLAM 系统的前端，但我们的方法比带映射的 LOAM 方法实现了更好的定位性能。表 5：与之前在 FlyingThings3D 子集的 "val "分割上进行的场景流估算工作的比较。"RGB "和 "XYZ "分别表示图像和点云。最佳结果以粗体显示。

图 7：估计场景流的可视化。蓝色点为源点，绿色和红色点分别表示正确和错误的估计目标点。

4.6 场景流估计任务的泛化性

值得注意的是，我们的设计可以作为通用的融合模块，很好地泛化到其他任务。在此，我们将融合模块扩展到场景流估计任务。如表 5 所示，在 FlyingThings3D 数据集上，我们的方法在二维和三维指标上都超过了最近所有的 SOTA 多模态场景流网络。我们的方法甚至一直优于专门为多模态场景流任务设计的 CamLiRAFT。实验结果证明了我们的方法具有很强的通用性和普遍应用能力。我们还在图 7 中直观地展示了估算出的流量。

4.7 消融研究

在本节中，我们将进行广泛的消融研究，以评估我们所设计组件的重要性。不使用局部融合器。我们从网络中移除局部融合器模块，并使用全局融合器模块直接融合图像和点特征。表 6：局部-全局融合网络中局部融合器（LoF）和全局融合器（GoF）的有效性。每个序列的最佳结果以粗体显示。

51c自动驾驶~合集29_自动驾驶_13

表 7：不同局部融合策略的消融研究。与基于注意力的局部融合策略相比，我们基于聚类的局部融合策略能以一半的推理时间达到最高的准确率。准确率和效率方面的最佳结果以粗体显示。

51c自动驾驶~合集29_自动驾驶_14

表 6 中的结果表明，如果没有局部融合器，我们模型的性能会明显下降。这说明了局部融合器模块的重要性，因为局部点到像素的对应关系可以融合来自不同模态的更精细的特征。无全局融合器。我们去掉了全局融合模块，直接使用局部融合特征进行姿态估计。表 6 中的结果表明，局部融合器模块有限的感受野无法实现充分的全局信息交互，这导致 trel 和 rrel 分别高出约 13.4% 和 14.6%。全局融合器的全局建模能力有助于识别对姿态回归有害的异常值。局部融合策略。我们比较了不同局部融合策略的性能。表 7 中的结果显示，我们基于聚类的局部融合策略在准确性上优于基于卷积的策略和基于注意力的策略。此外，基于聚类的融合效率也令人满意，其总推理时间略高于基于卷积的融合方法，是基于注意力的融合方法的一半。

5 结论

本文针对视觉-激光雷达里程计提出了一种具有双向结构对齐功能的新型局部-全局融合网络。设计了一个基于聚类的局部融合模块，以提供细粒度的多模态特征交换。此外，还设计了一个自适应全局融合模块，以实现全局信息交互。综合实验表明，我们的 DVLO 在精度和效率方面都达到了最先进的水平。我们的融合模块还可以作为一种通用的融合策略，很好地推广到多模态场景流估算任务中。我们将在未来的工作中对更多的多模态任务进行推广实验。

#自动驾驶大语言模型

大语言模型（LLMs）在各种信息处理任务中表现出了非凡的熟练程度。这些任务从提取数据和总结文献到生成内容、预测建模、决策和系统控制。此外，代表下一代语言模型（即XLM）的视觉大模型（VLM）和多模态LLM（MLLM）可以结合和集成许多具有语言理解能力的数据模式，从而推进了几个基于信息的系统，如自动驾驶系统（ADS）。事实上，通过将语言交流与多模式传感器输入相结合，例如全景图像和激光雷达或雷达数据，可以采取准确的驾驶行动。在此背景下，我们在这篇调查论文中全面概述了XLM实现自动驾驶的潜力。具体来说，我们回顾了关于ADS和XLM的相关文献，包括它们的架构、工具和框架。然后，我们详细介绍了为自动驾驶解决方案部署XLM的拟议方法。最后，我们提供了ADS XLM部署的相关挑战，并指出了未来的研究方向，旨在使XLM在未来的ADS框架中得到采用。

总结来说，本文的主要贡献如下：

ADS和XLM的基本概念概述。

应用于ADS的XLM的全面概述。

对最近的数据集、工具、框架进行广泛研究，以及能够在ADS中实际实施XLM的基准。

确定相关挑战和未来的研究方向，以在XLM的协助下促进ADS的部署。

缩略语列表：

相关研究的识别

应用搜索标准来识别与我们的研究范围密切相关的论文。因此，我们使用与我们感兴趣的领域相关的关键字和术语进行了文献评估，即侧重于在推进ADS中部署大规模模型。使用的搜索术语和短语包括但不限于以下内容：

“autonomous driving” and “large language models” or LLM
“autonomous driving” and “vision language models”
“autonomous driving” and “multimodal large language models”
“autonomous driving challenges”and“large scale models”
“datasets”, “LLM”, and “autonomous driving”
“datasets”, “VLM”, and “autonomous driving”
“datasets”, “MLLM”, and “autonomous driving”
“Frameworks”, “LLM”, and “autonomous driving”
“Frameworks”, “VLM”, and “autonomous driving”
“Frameworks”, “MLLM”, and “autonomous driving”
“MLLM”, “autonomous driving”, and “open issues”

PRISMA Process

因此，我们开始在多个数据库中进行广泛的文献搜索，然后删除重复项。随后，我们根据预定义的纳入标准筛选了标题和摘要。然后对符合标准的全文论文进行资格评估。PRISMA流程图如图2所示，用于记录审查过程的每个阶段，从最初的识别到最终纳入研究提供了清晰的视图。

精选论文

论文选择过程始于在各种数据库中的初步搜索，产生了N篇N=204论文。然后，基于关键字、摘要和出版年份（2023年或2024年）的过滤过程将论文数量减少到N=124。为了确保唯一性，多余的论文被删除，导致N=111论文。进行了第二个筛选阶段，以评估论文的贡献，进一步将列表缩小到N。最后，进行了全面的全文阅读，并选择了N篇=82论文纳入本研究。

ADS的典型架构应该包括传感器、摄像头、通信模块和复杂算法的组合，以便在没有人为干预的情况下导航和控制车辆。如图3所示：

表2总结了AD数据集的特征，并突出了它们的关键方面。

LLM的基本概念

Tokenization
Embedding Layer
PositionalEncoding
Attention Mechanism
Transformer Layer
Normalization Layer
Dropout Layer
Output Layer
Loss Function

LLM架构是围绕Transformer框架构建的。Transformer的两个主要部分是编码器和/或解码器。为了找到令牌之间的复杂相关性，它首先将输入数据分解为令牌。然后，后者要同时进行数学运算。通过这种方法，当面临类似的问题时，该系统能够以与人类认知相当的方式识别和提取模式。Transformer模型的架构如图4所示。

此外，LLM的特点是它们被设计用于的任务，包括文本生成、文本分类和文本摘要，以及它们的训练策略，例如自我监督、无监督、蒸馏、微调等。LLM在训练过程中部署了大规模的文本语料库，这需要张量处理单元（TPU）和图形处理单元（GPU）等高级硬件的大量计算资源。因此，在为特定任务选择LLM时，所需的硬件是另一个需要考虑的标准。

与大语言模型交互

它可以使用诸如快速工程、微调、零样本和从人类反馈中强化学习（RLHF）等技术来实现。这些方法增强了模型的性能，并使其适应特定的任务或领域。它们描述如下：

Prompt Engineering：LLM的快速工程涉及精心设计输入（提示），以指导模型生成所需的响应。已经制定了几种有效的快速工程策略和最佳实践，包括：

Chain-of-Thought (CoT) prompting；
Self-consistency；
Knowledge generation prompting；
Reasoning and Acting；
Contextual prompting；
Dynamic prompting；
Transfer learning prompting。

微调：微调LLM涉及在特定数据集上训练它们，以定制它们来响应特定上下文中的请求。它刺激模型产生一致的输出并减少幻觉。微调可以以无监督、监督或基于指令的方式实现。

Zero-shot, One-shot, and Few-shot Learning：最近的研究表明，LLM表现出高度的泛化能力，使他们能够将所获得的知识应用于原始训练过程中未包含的新任务。这种能力被称为零样本学习。当模型提供单个示例来说明任务时，它对应于单次学习，而少次学习是当模型提供几个示例来更好地理解任务要求和格式时。

Reinforcement Learning from Human Feedback：RLHF是一种先进的微调技术，从考虑模型响应的用户那里收集的反馈用于使LLM模型能够从中学习并改进其未来的响应。

Multi-modal Integration：LLM可以通过将其与其他数据形式（如图像、音频或结构化数据）集成来增强。事实上，将图像数据与文本提示相结合，可以形成一个能够理解和生成基于文本和视觉输入的响应的综合模型。此外，将结构化数据（如表和数据库）与文本输入相结合，可以得到更明智和准确的回应。

在表3中，我们总结了常见LLM架构的主要特征。

高效利用LLM的工作流程

有效利用LLM的典型工作流程包括以下步骤：

Taskidentification；
Model selection；
Model fine-tuning；
Model evaluation；
Model deployment；
Model improvement。

Basic Concepts of VLMs

视觉语言模型，也称为VLM，是高级神经网络（NN），用于处理和理解图像和视频等视觉数据。他们在几个计算机视觉任务中表现出了很高的性能，例如目标检测、分割和图像分类。与LLM一样，VLM提供歧视性和生成性任务。

VLMS的基本构建块是卷积神经网络（CNN）。VLM采用的一种有趣的CNN结构是残差网络（ResNet）。后者能够训练比CNN更深的神经网络。此外，Transformer模型已被用于基于视觉的任务。具体来说，视觉变换器（ViTs）将图像划分为固定大小的补丁，将其线性嵌入向量中，然后通过变换器编码器和自关注机制对其进行处理，以捕捉补丁之间的关系，如图5所示。位置编码被添加到补丁嵌入中以保留空间信息，使模型能够区分空间位置。

Basic Concepts of MLLMs

MLLM建立在传统LLM的基础上，通过增强其处理和管理来自各种来源的信息的能力，包括文本、图像和视频。此扩展允许MLLM提供更符合上下文的准确响应。

MLLM有三个关键的架构组件，使其能够处理和整合来自多种模态的信息，即（i）预训练的模态编码器，（ii）预训练LLM模型，以及（iii）链接前两个组件的模态接口。最近，对MLLM的贡献已经汇聚到Transformer，作为多模态数据交互的主要框架，包括文本到图像和图像到文本检索、图像字幕和图像/文本生成。因此，OpenAI开发了两种多模态模型，称为对比语言-图像相关（CLIP）和DALL-E。CLIP在训练和对比学习中整合了视觉效果及其文本信息，为文本和图像创建了一个共享的嵌入空间。因此，CLIP可以执行零样本学习来识别和分类新图像。

在表5中，我们总结了所选MLLM架构的特征，而表6则对LLM、VLM和MLLM模型进行了比较。

XLMs to Mitigate ADS Issues (RQ1)

为了保证安全、可靠和高效的ADS的发展，并确保自动驾驶汽车无缝集成到运输网络中，应解决几个挑战。我们在下面描述了与ADS相关的最相关的挑战。

Multi-Modality of Inputs and Sensors Fusion

为了感知环境，自动驾驶汽车依赖于各种传感器，包括视觉传感器（使用摄像头）、接近传感器（使用激光雷达和雷达）、超声波传感器、导航信号（使用GPS）、语言指令和高清地图。此外，为了实现稳健和高效的感知，应将大量收集的多模态数据结合起来。这项任务被称为传感器融合。事实上，准确的场景理解需要将多模态数据同步到相同的空间和时间坐标。然而，鉴于它们的异质性，实现高效的传感器融合具有挑战性。最近的研究开始调查多传感器融合和协作感知的机制。然而，随着MLLM的出现，需要进一步的研究来实现更有效的传感器融合。

Safety and Reliability

设计能够实时管理传感器故障、意外情况和天气条件以及软件错误而不危及AD安全的系统是一个关键问题。为了克服这些挑战，ADS算法应在各种情况和条件下进行训练，以提高其环境感知能力。因此，XLM是增强感知和决策的关键推动因素，特别是在关键情况下。在这种情况下，有工作通过使用接收项目定义的提示和LLM管道来生成安全要求。管道还审查需求的数据集，以识别冗余或矛盾的需求。

Complex Urban Environments

在行人、车辆和骑自行车的人等动态组成部分的复杂城市环境中导航，给ADS带来了许多挑战。此外，后者应该了解并遵守当地的交通法规和惯例，这些法规和惯例可能因地区而异。根据[31]的研究，多模态多任务视觉理解功能模块是专门为道路场景设计的。这些模型利用多模态和多任务学习能力来处理和融合来自不同来源的数据，使其能够灵活处理各种与驾驶相关的任务。

Data Privacy and Security

鉴于自动驾驶汽车生成和处理的大量数据，存在数据/传感器损坏、更改和/或窃听的严重风险。XLM可被利用来保护AV的数据。例如，[89]的作者提出使用MLLM来减轻对交通标志的自然去噪扩散（NDD）攻击，并将其集成到ADS中。

Human-Machine Interaction

自动驾驶汽车的发展带来了新的人机界面机遇和挑战。事实上，随着自动驾驶汽车的发展，理解和响应人类意图成为一项重要要求。因此，为了实现ADS的大规模采用，需要自动驾驶汽车与驾驶员、乘客和其他道路使用者之间进行流畅直观的交互。设计让乘客了解自动驾驶汽车的动作和意图的界面是必要的。将聊天机器人、语音到文本、文本到语音、文本到图像和图像到文本功能集成到自动驾驶汽车中，将增强人机界面，使其更加直观和自然。在此背景下，一些工作研究了将LLM与人类数字孪生（HDT）集成如何改变AD的HMI。同样，Yang等人强调了将LLMs集成到ADS中的好处。具体来说，他们使用各种LLM模型和提示设计进行了实验，以评估其在少镜头多元二元分类任务中的有效性。结果表明，与CodeL lama等其他LLM相比，GPT-4在任务理解和响应方面是最准确的。最后，DriveGPT4介绍了一种基于LLM的可解释的E2E ADS。他们表明，DriveGPT4可以处理文本查询和多帧视频输入，从而通过推理来解释车辆动作。

Proposed Taxonomy of XLM-based Approaches for Autonomous Driving

本节介绍了我们提出的在AD背景下应用XLM的分类法。该分类法旨在解决三个研究问题，即RQ2、RQ3和RQ4。与拟议分类学相关的详细方法将在调查的其余部分进行讨论。具体而言，第七节将LLM的使用分为以下四大类：

Prompt engineering-based methods；
Fine-tuning-based methods of pre-trained models；
RLHF-based methods:；
LLM and GAI-based methods。

第八节将VLM的使用分为以下两类：

Prompt engineering-based methods ；
Fine-tuning-based methods。

最后，第九节重点介绍MLLM在ADS中的集成。本节研究的方法分为以下四类：

Prompt engineering-based methods；
Fine-tuning-based methods；
RLHF-based methods；
MLLM and GAI-based methods。

LLMs for Autonomous Driving (RQ2)

已经提出了将LLM与ADS集成的各种方法。为了在ADS中实施LLM，已经开发了几种策略，包括基于快速工程、微调、RLHF和GAI的方法。

Prompt Engineering-based MethodsFine-Tuning-based Methods

Wang等人在DriveCoT中开发了一个使用CARLA模拟器的E2E驾驶数据集。它包括复杂的驾驶场景（例如变道和高速驾驶），并结合了CoT标签方案，为驾驶决策提供推理过程。此外，他们还设计了一个在DriveCoT数据集上训练的DriveCoT代理模型。后者在开环和闭环评估中表现出色。

在[102]中，作者提出了车道变更大语言模型（LC-LLM），这是一种可解释的车道变更预测模型，概念化为语言建模问题，并使用LLM求解。LC-LLM框架的核心是用于高速公路AD的车道变换和轨迹预测任务的微调LLM。通过实验，与基于长短期记忆（LSTM）或Transformers的基准相比，LC-LLM可以准确地预测车道变换意图和轨迹。

RLHF-based Methods

[103]的作者为AD设计了具有推理和决策能力的驾驶员代理，这些代理基于LLM，并与人类驾驶行为相一致。所提出的多对齐框架使用演示和反馈来将基于LLM的驾驶代理的行为与人的行为对齐。使用CARLA模拟器验证了所提出框架的有效性。

在[104]中，提出了一个闭环框架，用于增强阿尔茨海默病强化学习代理的训练和评估过程，称为CRITICAL。它侧重于生成关键的驾驶场景，以解决RL代理中的特定学习和性能差距。该框架包括一个LLM组件，用于根据历史训练数据和现实驾驶知识改进和多样化场景生成。为了评估情景的关键性，CRITICAL采用了替代安全措施，例如碰撞时间和统一风险指数。

LLM and GAI-based Method

105]中提出的DriveDreamer-2框架是DriveDreamer[106]的扩展，旨在生成用户定制的合成和逼真的多视图驾驶视频，用于ADS效率的培训、测试和验证。具体来说，它通过将结构化条件（如高清地图和3D框）与图像特征相结合来生成驾驶视频。该系统使用编码器将高清地图、3D框和图像帧嵌入潜在空间特征中，然后对其进行处理以生成最终视频。然后，使用统一多视图模型（UniMVM），增强了生成视频的空间和时间一致性。DriverDream-2的架构如图11所示

在表7中，我们对上述工作进行了比较研究。

VLMs for Autonomous Driving (RQ3)

表8总结了相关工作。

MLLMs for Autonomous Driving (RQ4)

表9总结了相关工作：

Datasets & Simulators for ADS (RQ5)数据集仿真器

AD的复杂性和关键性要求进行严格的评估和基准测试。我们审查了为此目的创建的相关工具和平台。首先，LimSim++最近被提出作为AD的高级闭环仿真平台。它包括对交通流、交通控制、道路基础设施和环境条件的详细模拟，从而能够对AD性能进行稳健评估。用户可以以不同的方式使用LimSim++：1）提示工程，例如，用户可以为自定义场景创建适当的场景描述和提示线索，以促进MLLM用于车辆控制，2）模型评估，例如，MLLM用于AD性能评估，3）通过在闭环模式下修改ADS子模块来改进ADS框架。LimSim++由以下三个主要模块组成：（1）信息集成模块，提供城市交通模拟（SUMO）提供的场景和CARLA模拟器的视觉内容；（2）MLLM提示引擎，用于理解场景和任务；（3）持续学习模块，允许驾驶员代理做出行为决策。LimSim++的架构如图18所示。此外，ChatSim是一种AD场景模拟，由于其为驾驶场景生成准确数据的巨大潜力而引起了人们的关注。它允许使用协作LLM生成和编辑逼真和定制的3D驾驶场景。

Open issues and Future Directions (RQ6)New Datasets for XLM-assisted ADS

用于启用ADS的XLM必须合成和解释来自多种模态的输入，包括3D点云、全景图像和HD地图注释。当前的数据集在规模、质量和多样性方面都有限，无法实现精确的ADS功能。大多数多模式LLM，如GPT-4V，都是在包括驾驶和交通场景的开源数据集上进行预训练的。然而，例如，从NuScenes导出的视觉语言数据集并不能为AD环境中的视觉语言理解提供足够稳健的基准。因此，迫切需要创建广泛、多样化和可扩展的数据集，涵盖任何交通或驾驶情况，特别是关键和罕见的事件。此外，此类新数据集应附有高质量的注释，例如目标标签和语义信息，这有助于理解复杂的场景并提高训练和评估精度。

Mitigating XLM Hallucination

XLM的幻觉是指输出（例如生成的文本响应）与相应的视觉内容不一致的现象，这在AD背景下可能是至关重要的。最近，人们提出了从数据、模型、训练和推理中解决幻觉的新方法。然而，需要更深入的工作来减轻幻觉效应。改进方向将包括使训练数据集多样化并提高其质量，开发在训练和推理过程中明确执行模态一致性的系统，提出新的XLM模型，以减少幻觉事件，例如使用RLHF，最后设计用于幻觉评估的模拟器和/或试验台。

Enabling XLMs on Resource-limited Hardware

鉴于XLM方法的复杂性，很难在容量有限的硬件上部署它们。为了绕过这个问题，可以制定几种策略。例如，FL技术可用于跨分布式数据源（如AV）训练模型，而不需要集中式数据、处理和存储。直到今天，将LlaMa-7B引入计算机系统和智能手机等边缘设备的努力仍然有限。因此，需要进一步的研究来支持边缘计算系统中的XLM。此外，设计可扩展且节能的XLM架构，在低容量硬件上运行而不会显著牺牲性能，将是经济高效的XLM辅助ADS的关键推动因素。此类架构可能会考虑延迟和内存优化、模型压缩和知识提取技术。

Advancing Personalized ADS

将XLM集成到ADS中标志着一种以持续学习和个性化参与为特征的范式。事实上，XLM可以不断从新的数据和交互中学习，从而适应不断变化的驾驶模式、用户偏好和不断变化的路况。随着时间的推移，这种适应性会带来改进和增强的性能。然而，ADS中缺乏实时个性化，这为部署和验证XLM辅助的个性化AD框架提供了许多机会。此外，可以探索开发符合驾驶员个人偏好的XLM驱动的虚拟助手，以及疲劳检测和维护规范等安全功能。

Multimodal Retrieval-Augmented Generation Frameworks

尽管在LLM中很好地解决了检索增强生成（RAG）技术，该技术在文本生成过程中结合了相关的外部知识，从而产生了更准确和上下文相关的输出，但多模态RAG（MuRAG）的探索不足，特别是在ADS中。事实上，后者有望将信息检索与多模式数据处理和生成能力相结合，以增强自动驾驶汽车对复杂驾驶场景的理解和反应。

Interplay between Multi-Tasking and Fine-Tuning

当ADS中的XLM多任务时，例如用于场景理解和轨迹预测，很难有效地对其进行微调。需要新的方法来协调特定任务的调整，同时保持任务之间的共享表示。此外，研究人员应探索XLM开发中的协作感觉模式，以全面了解驾驶环境，同时考虑多任务处理。

XLM Security

随着XLM的不断发展，研究人员发现了与之相关的几个风险，如快速注射、数据中毒和灾难性遗忘。这些风险对MLLM在现实世界ADS中的部署构成了重大障碍。因此，迫切需要制定强有力的安全措施，以确保此类先进模型的安全可靠部署。为此，MLLM保护器、鲁棒训练、逆向防御和数据加密等技术可能会集成到框架中。

结论

在本文中，我们回顾了XLM技术和AD框架，展示了如何将它们集成在一起。具体来说，我们从架构、数据集和概念的角度调查了用于AD操作的最新LLM、VLM和MLLM作品。然后，我们讨论了他们如何应对ADS的关键挑战，包括多模态数据融合、安全性、可靠性和复杂环境理解。在XLM用于AD的拟议方法中，讨论了快速工程、预训练模型微调、RLHF和GAI方法。通过我们的调查，我们强调了利用XLM进行多种AD任务的重要性，包括规划和控制、感知、多任务处理和问答。还讨论了足够的数据集和模拟工具的作用，最后，我们的前瞻性分析确定了开放问题和未来的研究方向，这些问题和方向有可能使XLM辅助的实用ADS框架成为可能。