#DriveArena
仓库链接:https://github.com/PJLab-ADG/DriveArena
项目链接:https://pjlab-adg.github.io/DriveArena/
DriveArena是首个为高保真度闭环模拟系统设计的驾驶agent,用于在真实场景中进行导航。DriveArena具有灵活、模块化的架构,可无缝交换其核心组件:交通管理器(Traffic Manager),这是一种能够在全球任何街道地图上生成逼真车流的交通模拟器;以及World Dreamer,这是一个具有无限自回归特性的高保真条件生成模型。这种强大的协同作用使任何能够处理现实世界图像的驾驶agent都能够在DriveArena的模拟环境中进行导航。agent通过世界梦想家生成的图像感知周围环境并输出轨迹。这些轨迹被输入到交通管理器中,以实现与其他车辆的逼真交互并产生新的场景布局。最后,最新的场景布局被传回World Dreamer,从而延续模拟循环。这一迭代过程促进了在高度逼真的环境中的闭环探索,为在不同且具挑战性的场景中开发和评估驾驶agent提供了一个宝贵的平台。DriveArena标志着在利用生成图像数据构建驾驶模拟平台方面取得了重大飞跃,为闭环自动驾驶提供了新见解。
DriveArena与现有自动驾驶方法和平台在交互性和逼真度方面的比较。交互性表示平台对车辆的控制程度,范围从开环、不可控闭环到可控闭环。逼真度反映了驾驶场景的真实性,从下到上分为:仅交通流、不现实场景、现实场景和多样场景。DriveArena独特地占据了右上方的位置,是第一个为所有车辆生成多样交通场景和环视图像并具有闭环可控性的模拟平台。
近几十年来,自动驾驶(AD)算法取得了飞速发展,从模块化流程发展到端到端模型和知识驱动方法。尽管这些算法在各种基准测试中表现出色,但在使用回放的开环数据集进行评估时,仍存在重大挑战,掩盖了它们在现实世界中的有效性。公共数据集虽然提供了真实的驾驶数据、真实的传感器输入和交通行为,但本质上偏向于简单的直线行驶场景。在这种情况下,agent只需保持当前状态即可获得看似良好的表现,从而使在复杂情况下评估实际驾驶能力变得复杂。此外,在开环评估中,agent的当前决策不会影响执行或后续决策,这阻止了它反映现实世界驾驶场景中的累积错误。此外,记录的数据集具有静态特性,其他车辆无法对自车的行为做出反应,这进一步阻碍了在动态、真实世界条件下对自动驾驶算法进行评估。
如图1所示,这里对现有的自动驾驶方法和平台进行了分析,发现其中大多数都不足以进行高保真度的闭环模拟。理想情况下,作为具身智能的一部分,agent应在闭环环境中进行评估,在该环境中,其他agent会对自车(ego vehicle)的行为做出反应,而自车也会相应地接收到变化的传感器输入。然而,现有的模拟环境要么无法模拟传感器输入,要么与现实世界存在显著的领域差异,这使得算法难以无缝集成到现实世界中,从而对闭环评估构成了巨大挑战。我们认为,模拟器不仅应紧密反映现实世界的视觉和物理特性,还应在探索性闭环系统中促进模型的持续学习和进化,以适应各种复杂的驾驶场景。为实现这一目标,建立一个符合物理定律并支持交互功能的高保真模拟器至关重要。
因此,我们推出了DriveArena,这是一款基于条件生成模型的开创性闭环模拟器,用于训练和测试驾驶agent。具体而言,DriveArena提供了一个灵活的平台,可以与任何基于摄像头输入的驾驶agent集成。它采用模块化设计,自然支持每个模块的迭代升级。DriveArena由交通管理器(Traffic Manager)和基于自回归生成的“世界梦想家”(World Dreamer)组成。交通管理器可以在全球任何道路网络上生成逼真的交互式交通流,而World Dreamer是一个具有无限自回归能力的高保真条件生成模型。驾驶agent应根据“World Dreamer”生成的图像做出相应的驾驶动作,并将这些动作反馈给交通管理器以更新环境中车辆的状态。新的场景布局将返回给“World Dreamer”进行新一轮的模拟。这一迭代过程实现了驾驶agent与模拟环境之间的动态交互。具体贡献如下:
高保真闭环模拟:我们提出了首个针对自动驾驶的高保真闭环模拟器DriveArena,该模拟器能够提供逼真的周围图像,并与现有的基于视觉的驾驶agent无缝集成。它能够紧密反映现实世界的视觉和物理特性,使agent能够以闭环方式持续学习和进化,适应各种复杂的驾驶场景。
可控性和可扩展性:我们的交通管理器(Traffic Manager)可以动态控制场景中所有车辆的移动,并将道路和车辆布局输入给World Dreamer。“World Dreamer”利用条件扩散框架以稳定且可控的方式生成逼真的图像。此外,DriveArena支持使用全球任何城市的道路网络进行模拟,能够创建具有不同风格的各种驾驶场景图像。
模块化设计:驾驶agent(Driving Agent)、交通管理器(Traffic Manager)和World Dreamer通过网络接口进行通信,构建了一个高度灵活且模块化的框架。这种架构允许使用不同的方法替换每个组件,而无需特定的实现。作为这些参与者的竞技场,DriveArena促进了基于视觉的自动驾驶算法和驾驶场景生成模型的全面测试和改进。
如图2所示,提出的DriveArena框架包含两个关键组件:一个是作为后端物理引擎的交通管理器(Traffic Manager),另一个是作为现实世界图像渲染器的World Dreamer。与传统方法不同,DriveArena不依赖于预建的数字资产或重建的3D道路模型。相反,交通管理器能够适应OpenStreetMap(OSM)格式中任何城市的道路网络,这些网络可以直接从互联网下载。这种灵活性使得在不同城市布局上进行闭环交通模拟成为可能。
交通管理器接收自动驾驶agent输出的自车轨迹,并管理所有背景车辆的移动。与依赖扩散模型来进行图像生成和车辆运动预测的世界模型方法不同,我们的交通管理器采用显式的交通流生成算法。这种方法能够生成更广泛的不常见且可能不安全的交通场景,同时也便于实时检测车辆之间的碰撞。
“World Dreamer”能够生成逼真的camera图像,这些图像与交通管理器的输出精确对应。此外,它还允许用户自定义提示来控制生成图像的各种元素,如街景风格、一天中的时间和天气状况,从而增强了生成场景的多样性。具体来说,它采用了一种基于扩散的模型,该模型利用当前的地图和车辆布局作为控制条件来生成环视图像。这些图像作为端到端驾驶agent的输入。鉴于DriveArena的闭环架构,扩散模型需要保持生成图像中的跨视图一致性和时间一致性。
当前帧生成的多视图图像被输入到端到端自动驾驶agent中,该agent可以输出自车(ego vehicle)的运动情况。随后,将规划的自车轨迹发送给DriveArena进行下一步的模拟。当自车成功完成整个路线、发生碰撞或偏离道路时,模拟结束。完成后,DriveArena执行全面的评估过程,以评估驾驶agent的能力。
值得注意的是,DriveArena采用了分布式模块化设计。交通管理器(Traffic Manager)、World Dreamer和自动驾驶(AD)agent通过网络使用标准化接口进行通信。因此,DriveArena并不强制要求World Dreamer或自动驾驶agent的具体实现方式。我们的框架旨在为这些“参与者”提供一个“竞技场”,促进端到端自动驾驶算法和真实驾驶场景生成模型的全面测试和改进。
大多数现有的真实驾驶模拟器依赖于公共数据集中有限的布局,缺乏动态环境的多样性。为了应对这些挑战,我们利用LimSim作为底层交通管理器来模拟动态交通场景,并为后续的环境生成生成道路和车辆布局。LimSim还提供了一个用户友好的前端图形用户界面(GUI),该界面直接显示鸟瞰图(BEV)地图以及来自World Dreamer和驾驶agent的结果。
我们的交通管理器能够实现交通流中多辆车的交互式模拟,包括全面的车辆规划和控制。我们采用了一个层次化的多车决策和规划框架,该框架对流中的所有车辆进行联合决策,并通过高频规划模块迅速响应动态环境。该框架还融入了合作因子和轨迹权重集,在社交和个人层面为交通中的自动驾驶车辆引入了多样性。
此外,动态模拟器支持从OpenStreetMap获取任何城市的各种自定义高清地图,便于构建多样化的道路图以进行便捷的模拟。交通管理器控制所有背景车辆的移动。对于主体车辆(即自动驾驶车辆本身),提供两种不同的模拟模式:开环和闭环。在闭环模式下,驾驶代理为主体车辆进行规划,交通管理器则使用agent输出的轨迹来相应地控制主体车辆。在开环模式下,驾驶agent生成的轨迹并不实际用于控制主体车辆;相反,交通管理器以闭环方式保持控制。
与最近使用神经辐射场(Neural Radiance Fields, NeRF)和3DGS(3D Gaussian Splatting)从记录的视频中重建环境的自动驾驶生成方法不同,我们设计了一个基于扩散的World Dreamer。它利用来自交通管理器的地图控制条件和车辆布局来生成几何和上下文上准确的驾驶场景。框架具有以下几个优势:(1)更好的可控性。生成的场景可以通过交通管理器中的场景布局、文本提示和参考图像来控制,以捕捉不同的天气条件、光照和场景风格。(2)更好的可扩展性。框架可以适应各种道路结构,而无需事先对场景进行建模。理论上,通过利用OpenStreetMap的布局,支持为世界上任何城市生成驾驶场景。
在图3中展示了基于扩散的“World Dreamer”。在稳定的扩散流程的基础上,“World Dreamer”利用了一个有效的条件编码模块,该模块可接受包括地图和车辆布局、文本描述、相机参数、自我姿态和参考图像在内的多种条件输入,以生成逼真的环视图像。考虑到对于驾驶agent而言,确保跨不同视图和时间跨度的合成场景一致性至关重要,这里借鉴了MagicDrive的灵感,集成了一个跨视图注意力模块,以保持不同视图之间的一致性。此外,采用了一种图像自回归生成范式来强制时间一致性。这种方法使“World Dreamer”不仅能够最大限度地保持生成视频的时间一致性,还能在无限流中生成任意长度的视频,为自动驾驶模拟提供了极大的支持。
条件编码。先前的工作将鸟瞰图(BEV)布局作为条件输入来控制扩散模型的输出,这增加了网络学习生成几何和上下文准确的驾驶场景的难度。本工作提出了一种新的条件编码模块来引入更多的指导信息,这有助于扩散模块生成高保真度的环视图像。具体来说,除了使用与MagicDrive类似的条件编码器对每个视图的相机姿态、文本描述、3D目标边界框和BEV地图布局进行编码外,还明确地将地图和目标布局投影到每个相机视图上,以生成更准确的车道和车辆生成指导的布局画布。具体来说,文本嵌入是通过使用CLIP文本编码器对文本描述进行编码获得的。每个相机的参数(其中K、R、T分别代表相机内参、旋转和平移)和3D边界框的8个顶点通过傅里叶嵌入编码为和。2D BEV地图网格使用与MagicDrive中相同的编码方法获得嵌入。然后,将高清地图和3D边界框的每个类别分别投影到图像平面上,以获得地图canvas和边界框canvas。这些canvases被连接起来以创建layout canvas。最后,通过条件编码网络对layout canvas进行编码,得到最终的特征。
此外,这里还引入了一个参考条件来提供外观和时间一致性指导。在训练过程中,随机从过去的L帧中提取一帧作为参考帧,并使用预训练的CLIP模型从多视图图像中提取参考特征。编码后的参考特征隐含了语义上下文,并通过交叉注意模块整合到条件编码器中。为了使扩散模型能够感知到自车的运动变化,还将自车相对于参考帧的姿态编码到条件编码器中,以捕捉背景的运动变化趋势。相对姿态嵌入通过傅里叶嵌入进行编码。通过整合上述控制条件,我们可以有效地控制周围图像的生成。
自回归生成。为了促进在线推理和流式视频生成,同时保持时间一致性,我们开发了一个自回归生成流程。在推理阶段,之前生成的图像和相应的相对自车姿态被用作参考条件。这种方法引导扩散模型生成当前周围图像,以增强一致性,确保与先前生成的帧之间的过渡更加平滑和连贯。
本文中我们设计的只是World Dreamer的一个简单实现。我们还验证了将自回归生成扩展到多帧版本(使用多个过去帧作为参考并输出多帧图像)以及添加额外的时间模块可以提高时间一致性。
最近的工作已经证明了在公共数据集上进行开环评估以证明驾驶agent规划行为的挑战,这主要是由于所呈现的驾驶场景过于简单。虽然一些研究已经使用如CARLA等模拟器进行了闭环评估,但这些模拟与现实世界的动态环境之间仍存在外观和场景多样性的差异。为了弥补这一差距,DriveArena提供了一个真实的模拟平台,并配备了相应的接口,供基于camera的驾驶agent进行更全面的评估,包括开环和闭环测试。此外,通过改变输入条件(如道路和车辆布局),DriveArena可以生成极端情况,并促进这些驾驶agent在分布外场景下的评估。不失一般性,我们选择了一个具有代表性的端到端驾驶agent,即UniAD在DriveArena中进行开环和闭环测试。UniAD利用周围图像来预测自车和其它agent车辆的运动轨迹,这可以无缝地与我们动态模拟器的API集成以进行评估。此外,感知输出(如3D检测和地图分割)有助于提升我们环境中生成场景的现实性验证。
DriveArena 本质上支持驾驶agent的“闭环”仿真模式。即,系统采用agent在每个时间步长输出的轨迹,基于该轨迹更新自车的状态,并模拟背景车辆的动作。随后,它生成下一个时间步长的多视图图像,从而保持连续的反馈闭环。此外,认识到一些自动驾驶agent在开发过程中可能无法进行长期闭环仿真,DriveArena 还支持“开环”仿真模式。在这种模式下,交通管理器将接管自车的控制,而自动驾驶代理输出的轨迹将被记录下来以供后续评估。
在开环和闭环模式下,从结果导向的角度全面评估自动驾驶agent的性能至关重要。受 NAVSIM 和 CARLA 自动驾驶排行榜的启发,DriveArena 采用两种评估指标:PDM 分数(PDMS)和 Arena 驾驶分数(ADS)。
PDMS(路径偏差和速度匹配分数),最初由 NAVSIM提出,用于评估每个时间步长输出的轨迹。遵循 PDMS 的原始定义,该定义综合了以下子分数:
其中,惩罚包括与道路使用者无碰撞(NC)和可行驶区域合规性(DAC),以及包括自我进展(EP)、碰撞时间(TTC)和舒适度(C)的加权平均数。我们对DriveArena进行了小幅修改:在NC评分中,我们不区分“过错方”碰撞;在EP评分中,我们使用交通管理器的自车路径规划器作为参考轨迹,而不是预测驾驶员模型。在模拟结束时,将所有模拟帧的最终PDM分数进行平均。
对于开环模拟,PDMS直接作为自动驾驶agent的评估指标。然而,对于在“闭环”模拟模式下运行的驾驶agent,这里采用了一个更全面的指标,称为Arena Driving Score (ADS),该分数结合了轨迹PDMS和路线完成度:
其中,Rc ∈ [0, 1] 表示路线完成度,定义为agent完成的路线距离百分比。由于“闭环”模拟会在agent与其他道路使用者发生碰撞或偏离道路时终止,因此ADS为区分agent的驾驶安全性和一致性提供了一个合适的指标。
图5. 不同提示和参考图像对相同场景影响的展示。该图展示了DriveArena为同一个30秒模拟序列生成的四个不同的图像序列,每个序列都使用了不同的提示和参考图像。所有序列都严格遵循给定的道路结构和车辆控制条件,保持跨视图的一致性。值得注意的是,这四个序列在天气和光照条件上呈现出显著的差异,但在整个30秒的过程中都始终如一地保持了各自独特的风格。点击此处查看视频演示。
#AdaOcc
论文链接:https://arxiv.org/pdf/2408.13454
代码链接:https://github.com/ai4ce/Bosch-NYU-OccupancyNet/
本文介绍了AdaOcc:自适应分辨率占用预测。在复杂的城市场景中实现自动驾驶需要3D感知既全面又精确。传统的3D感知方法着重于目标检测,导致缺乏环境细节信息的稀疏表示。最近的方法估计车辆周围的3D占用,以获得更全面的场景表示。然而,稠密的3D占用预测提高了计算需求,给效率和分辨率之间的平衡带来挑战。高分辨率占用栅格提供了准确性,但是需要大量的计算资源,而低分辨率栅格效率高,但是缺乏细节信息。为了解决这一难题,本文引入了AdaOcc,这是一种新的自适应分辨率、多模态的预测方法。本文方法将以目标为中心的3D重建和整体占用预测集成到一个框架内,仅在感兴趣区域(ROIs)内进行高度精细且精确的3D重建。这些高度精细的3D表面以点云表示,因此其精度不受占用地图的预定义栅格分辨率所限制。本文在nuScenes数据集上进行全面实验,证明了相比于现有方法具有显著改进。在近距离场景中,本文方法在IOU上超过先前的基线13%,在Hausdorff距离上超过了40%。总之,AdaOcc提供了更通用、更有效的框架,能够在各种驾驶场景中提供准确的3D语义占用预测。
本文的贡献总结如下:
1)本文提出了一种多模态自适应分辨率方法,在关键区域中提供了三种高精度的输出表示,同时维持实时应用的效率;
2)本文开发了一种有效的联合训练范式,可以增强占用预测和目标折叠分支之间的协同作用;
3)本文方法在nuScenes数据集上展现出卓越的精度,特别是在需要精确行为的近距离场景中表现出色。
总结
总之,本文所提出的方法提供了一种多模态自适应分辨率方法,在关键区域中提供了三种具有高精度表面的输出表示,同时确保了实时应用的效率。此外,本文还开发了一种有效的联合训练范式,以增强占用和折叠网络之间的协同作用,从而提高近距离占用预测的性能。本文方法在nuScenes数据集上展现出卓越的精度,突出了对精细表面重建的注重。
局限性:本文发现,联合训练方法没有显著提高目标检测任务的质量。需要进一步研究粗略占用预测和目标表面重建之间的相互作用,以提高不同表示之间的一致性。此外,通过更高级的并行化设计,能够进一步优化统一框架的效率。
#端到端引发的权力重新分配
每当一个组织进行架构调整时,都将引发权力在不同高管之间重新分配,有人得意也有人失意。
这是亘古不灭的现象,某新势力的自动驾驶业务也是如此。
今年上半年,某新势力对自动驾驶业务的组织架构进行了大调整。在这波调整中,除了智驾一号位之外最核心的感知负责人和规控负责人,两人的命运处境迥异。
这家新势力的感知负责人成了“得意者”。全新的组织架构是去模块化,砍掉了感知部门、规控部门,合并成立了大模型部门,全面负责算法的研发。这个职位可谓是除了智驾一号位之外,职能权力和业务权限最大的了。原感知负责人担任大模型部门的leader,从原先只负责感知的研发到负责全部算法,可谓是赢家。
而规控负责人则成了“失意者”。在此之前权限很大、负责的东西很多,除了负责规控,还负责这家新势力平台的行车方案。这次调整被安排为负责车端的量产,远离了最核心的算法研发。
这位规控负责人的权限可谓是被大幅削减。
一位业界朋友表示,这位规控负责人和智驾一号位本来就一直不对付,双方的关系很不好,所以这样的人事安排一点都不意外。
这家新势力自动驾驶团队最核心的就是智驾一号位、感知负责人、规控负责人。其中,智驾一号位和感知负责人的关系最好,两人之前不仅在同一家公司共事,而且还是智驾一号位把其带到这家新势力的,可谓嫡系“老铁”。
相比上述两位的关系,规控负责人就是“外人”了。
另外,智驾一号位对规控的研发和量产不满意,认为拖慢了整体智驾方案的进度。而且规控负责人的脾气也大,在研发和量产过程中和智驾一号位有矛盾的时候,双方经常是吵架。
总之,智驾一号位和规控负责人的关系是:用的不顺手、关系也不近。不过,规控负责人向上管理的能力很强,这就导致智驾一号位虽然不满意但也拿不掉。
而由端到端引发的组织架构调整正好成了一个契机,打乱团队重新分配业务权限,智驾一号位就可以按照自己意愿来安排人事,感知和规控全交给用的顺手的自己人。
据悉,这位规控负责人也在看外部机会了,如果外部有好的机会就可能离职走人了。
近几年智驾团队的管理一直是行业存在的老大难问题。智驾领域的技术大牛一般都是理工男学霸出身,理工男学霸一般心气高,再加上行业火热在人力市场上被追捧,导致比较孤傲,管理起来不容易。
新势力的智驾团队总体上还是努力做事的,因为有华为这样的“鲇鱼”存在,大家就得“你追我赶”的竞争。而在传统主机厂的智驾团队则是另外一副“面貌”,许多被新势力车企淘汰下来的所谓的“技术大牛”在传统主机厂找到了自己的“一片开阔天地“。
有名校的title、有新势力的履历,在传统主机厂就容易吃香,当然更关键的是政治能力。虽然技术能力不行,但是只要政治能力好就问题不大,因为传统主机厂的领导们也不懂嘛。
比如某头部主机厂智驾自研团队的leader就是如此,搞政治的能力远远大于搞技术的能力。算法研发做的不行,但是仍旧深得上级领导研究院院长的器重。因为这位院长在读博士,这位leader就帮着院长写博士论文,而且要帮着院长发顶会。