摘要：人类行为预测是运动规划中一个困难而又关键的任务。这在很大程度上具有挑战性，因为在自动驾驶等现实世界的领域中，可能的结果具有高度的不确定性和多模态集合。除了单一MAP轨迹预测[1,2]，获得未来的准确概率分布是一个活跃的领域[3,4]。我们提出了MultiPath，它利用了一组固定的未来状态序列锚来对应轨迹分布模式。在推理时，我们的模型预测了锚上的离散分布，并且对于每个锚，将锚的路点的偏移与不确定性一起回归，在每个时间步长产生一个高斯混合。我们的模型是高效的，只需要一次正向推理就可以获得多模态的未来分布，并且输出是参数化的，允许紧凑的通信和分析性的概率查询。我们在几个数据集上显示，我们的模型实现了更准确的预测，与采样基线相比，这样做的轨迹要少一个数量级。

方法

给定观察值x，包含所有agent 的过去轨迹以及可能的附加上下文信息(如车道语义、交通灯状态)，MultiPath的目标是：1)未来轨迹的参数分布:P(s|x) (2)一个紧凑的加权显式轨迹集。

设t表示离散时间步长，设 s_t 表示 agent在t时刻的状态，未来轨迹 s=[s_1,s_2,..,s_T] ,是从t = 1到固定时间范围T的一系列状态。我们也把轨迹中的状态称为路点。

不确定性的概念分解成独立的量：意图不确定性和控制不确定性。意图不确定性指agent潜在的粗粒度意图或期望目标。给定意后，仍然存在控制不确定性，它指agent为满足其意图而遵循的状态序列的不确定性。

将一个离散的意图集建模为一组K条锚定轨迹 $\boldsymbol{A} = \{a^k\}_{k=1 }^K$ ，其中每个锚点轨迹为一系列状态k = a^k=[a_1^k,...,a_T^k] ，基于softmax分布的离散意图集的不确定性为 $T(a^k|x) = \frac{exp f_k(x)}{ \sum_i exp f_i(x)}$ ， $f_k(x):\mathit{R}^{d(x)} \rightarrow \mathit{R}$ 是深度神经网络的输出。

将假设简化为不确定性是给定意图的单模态，模型的控制不确定性是依赖于锚点轨迹的每个路径点状态的高斯分布: $\phi (s_t^k|a_t^k,x) = \mathcal N(s_t^k|a_t^k+\mu_t^k(x),\Sigma_t^k(x))$ 。高斯分布参数 $\mu_t^k(x),\Sigma_t^k(x)$ 由模型直接预测。 $\mu_t^k(x)$ 表示与锚定状态 a^k 的场景偏移量。

假设时间步长的分布为是给定锚后条件独立的，写为 $\phi(s_t|\cdot )$ 。因此可以通过一个推理过程联合预测所有时间步骤，使得模型训练简单，评估高效。

为了获得整个状态空件间的分布，我们求得agent意图的边际分布:

$p(s|x) = \sum_{k=1}^K \pi(a^k|x) \prod_{t=1}^T \phi(s^t|a^k,x)$

这是一个高斯混合模型分布。

这是对两种类型的不确定性建模的自然选择:它具有丰富的表示能力，一个封闭形式的划分函数，而且紧凑。

获得锚轨迹

使用了k - means算法这个简单的近似获得A，使用轨迹间的平方距离 $d(u,v) = \sum_t^T ||M_u u_t -M_vv_t||_2^2$

学习

通过模拟学习来训练模型，通过拟合参数来最大化记录的驾驶轨迹的对数似然。

负对数似然。

这是标准GMM似然拟合的时间序列扩展。

推断测试时间轨迹的不同加权集合

模型允许在测试时避开标准的采样技术，并在没有任何额外计算的情况下获得一个加权的K条轨迹集。

输入表示

将动态和静态场景上下文的历史表示为自上而下正投影角度呈现的三维数据数组。前两个维度表示自顶向下图像中的空间位置。深度维度中的通道保存前面固定数量时间步长的静态和时变(动态)内容。Agent观察结果呈现为有方向的bounding box二值图像，每个时间步长为一个通道。其他动态场景，如交通灯状态和道路的静态场景(车道连通性和类型、停车线、限速等)，形成附加通道。

神经网络的细节

设计一个经过联合训练的两阶段体系结构，该体系结构首先提取整个场景的特征表示，然后处理场景中的每个agent，最后轨迹预测。

第一阶段为全卷积，以保持空间结构;它采用上面描述的3D输入表示，并输出整个自顶向下场景的3D特征图。

第二阶段提取以该特征图中的agent位置为中心的大小为11×11的patch。为了保持方向不变，提取的特征被旋转到一个以agent为中心的坐标系。

实验

指标

对数似然(LL)。如果模型允许似然评估，报告 $log p(\hat{s} | x)$ 。

基于距离。这一类中有常用的平均位移误差(ADE) $\frac{1}{T}\sum_{t=1}^{T}||\hat{s}_t-s_t^*||_2$ 和最终位移误差(FDE) $||\hat{s}_T-s_T^*||_2$ 。为了评估一组轨迹，也会使用最小平均位移误差(minADE) $\min_{S_m}\frac{1}{T}\sum_{t=1}^{T}||\hat{s}_t-s_{m,t}||_2$ ，计算一组中最接近的轨迹的位移误差。