2023-12-07,由普渡大学、伊利诺伊大学厄巴纳-香槟分校、弗吉尼亚大学和丰田汽车北美信息技术实验室共同创建了LaMPilot数据集,这个数据集的意义在于为自动驾驶领域提供了一个专门评估大型语言模型程序性能的基准,推动了自动驾驶系统在理解和执行自然语言指令方面的进步。
一、研究背景:
自动驾驶(AD)近年来取得了显著进展,商业自动驾驶车辆(AVs)越来越多地被部署在公共道路上。尽管如此,现有的自动驾驶框架在处理任意用户命令方面存在困难,例如“超车”。
目前遇到困难和挑战:
1、自动驾驶系统难以有效处理任意用户命令。
2、大型语言模型在自动驾驶领域的集成面临挑战,缺乏将LLMs整合到自动驾驶车辆决策过程中的成熟范例。
3、缺乏用于评估和比较基于LLM的驾驶代理性能的基准测试。
数据集地址:LaMPilot-Bench|自动驾驶数据集|语言模型
二、让我们一起来看一下 LaMPilot-Bench数据集
LaMPilot-Bench是个专为评估自动驾驶中语言模型程序效能而设计的基准数据集。包含了多种驾驶场景,每个场景都以自然语言描述任务,并提供了一个模拟环境进行全面评估。数据集通过交互式模拟器和评估器,采用程序化评分机制来评估策略性能。
数据集构建:
LaMPilot-Benc通过集成大型语言模型(LLMs)并提供API,这些API覆盖了各种功能原语,使LLMs能够通过代码生成将自然语言指令连接到可执行的驾驶计划。
数据集特点:
1、专注于评估自动驾驶中语言模型程序的基准数据集。
2、包含自然语言描述的任务和模拟环境,用于全面评估。
3、采用程序化评分机制,以评估策略性能。
研究人员可以利用LaMPilot框架,通过LLMs生成代码,将用户指令转换为可执行的驾驶计划,并在模拟器中执行以完成指定的驾驶任务。
基准测试 :
基准测试通过评估LLMs在处理多样化驾驶场景和遵循用户指令方面的表现来进行。实验结果表明LLMs在这些方面具有巨大潜力。
LaMPilot 框架概述。大型语言模型 (LLM) 会收到一个包含人工指令、驾驶上下文和 API 文档的提示。然后,它编写用作驱动策略的语言模型程序。这些策略在模拟器中执行以完成指定的驾驶任务,随后由评估员进行评估以评估生成的策略代码的有效性。
三、展望LaMPilot-Bench应用场景 :
比如,你坐在一辆自动驾驶车里,你对车辆说:“嘿,哥们,超过前面那辆开得慢的车。” 自动驾驶系统可能会一脸懵,它无法理解你这么随意的指令,或者即使理解了,它也不知道干怎么办。
假设你正在使用一辆装备了LaMPilot系统的自动驾驶汽车。
现在,你遇到了以下场景:你告诉汽车:“嘿,我想在下一个路口左转,但是路上有一辆慢吞吞的货车挡在前面,你能帮我超车然后安全地左转吗?”
具体细节:
1、任务:汽车需要执行的任务是在下一个路口左转,同时避开前方慢行的货车。
2、模拟环境:这个场景在一个虚拟的城市场景中进行模拟,包括街道、路口、红绿灯,以及各种交通参与者。
3、执行过程:
第一步:汽车的语言模型接收到你的指令后,开始分析指令内容。
第二步:模型识别出需要执行的动作:超车和左转。
第三步:汽车通过内置的API,生成了一段代码,这段代码告诉汽车如何安全地执行超车和左转。
最后,在模拟器中,汽车开始执行这段代码,先是加速,找到合适的时机超越货车,然后在下一个路口减速并安全地左转。
汽车成功完成了超车和左转的操作,没有违反交通规则,也没有发生任何事故。模拟器中的评估器会对这次操作进行评分,确保汽车的行为既安全又高