20

谷歌WAYMO最新方法Target-driveN Trajectory Prediction论文介绍

 3 years ago
source link: https://zhuanlan.zhihu.com/p/267946225
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

arXiv上今年8月文章“TNT: Target-driveN Trajectory Prediction“,是关于谷歌WAYMO的轨迹预测方法。被会议CoRL(Conference on Robot Learning)‘2020录取。

QNN7ZfJ.jpg!mobile

TNT是一种基于历史数据(即多代理和环境之间交互)生成目标的轨迹状态序列方法,并基于似然估计得到紧凑的轨迹预测集。不同于以前方法,即基于定义的潜变量并依赖于测试时间的采样来生成各种轨迹。整个方法还是要做端到端的深度学习训练,其性能在开源数据集上(Argoverse、INTERACTION和Stanford Drone等)表现不差甚至优于其他方法。

注:前不久谷歌提出的方法VectorNet,后面有提到。

下图是TNT框架应用于车辆未来轨迹预测任务的示意图,包括三个阶段:(a)目标预测,在所有候选(diamond)中提出一组合理的目标(star)。 (b)目标条件运动估计,估计每个选定目标的轨迹(分布),(c)打分和选择,对轨迹假设进行排名,并选择似然估计的最终轨迹预测集。

7neUfiU.jpg!mobile

下图是TNT模型概览。 首先将场景上下文编码为模型输入。 然后,遵循TNT的核心三个阶段:(a)目标预测,提出初始的M个目标集; (b)目标条件运动估计,估计每个目标的轨迹; (c)打分和选择,对轨迹假设进行排序并输出K个预测轨迹的最终集。

yq2ye2Z.jpg!mobile
  • 场景上下文进行建

对场景上下文进行建模是轨迹预测中的第一步,以便捕获代理与道路和代理之间的相互作用。 TNT可以使用任何合适的上下文编码器:当高清地图可用时,用最新的分层图神经网络VectorNet来编码上下文。 具体来说,折线用于提取HDMap元素(车道,交通标志)和代理轨迹; 子图网络用于编码每条折线,其中包含可变数目的向量; 然后使用全局图网络对折线之间的交互进行建模。 输出是每个建模代理的全局上下文特征。 如果场景上下文仅以自上而下(top-down)的图像形式可用,比如ChauffeurNet,则将ConvNet用作上下文编码器。

  • 目标预测

目标预测中,目标定义为代理在一个固定时间段T可能处的位置。未来状态的不确定性分为目标或意图不确定,以及控制不确定。这样概率分布分解为目标条件化以及marginalize,如:

Qr6Vbum.png!mobile

而目标分布建模为一个离散-连续分解形式,如:

nQne2uE.png!mobile

其中的函数 f 和 v 可训练,比如2层MLP,输入是目标坐标和场景上下文特征。训练损失函数为:

nEjIzaR.png!mobile

如图所示,离散目标空间的选择在不同应用中都非常灵活:

36nQf2.jpg!mobile

在车辆轨迹预测问题中,从高清地图上统一采样车道中心线点,并将其用作目标候选(标记为黄色spades), 假设车辆决不会离开车道; 针对行人,围绕代理生成一个虚拟网格并将网格点用作目标候选。 对每个目标候选,TNT目标预测器产生一个三元组(pai; delta x; delta y); 回归目标标记为橙色star。 与直接回归相比,未来状态建模为离散目标集的最大优势在于,它不会受模式平均化的影响,而这恰恰是阻碍多模式预测的主要因素。

  • 运动估计

这里有两个假设

  • 假设1:未来时间条件独立,避免序列预测;
  • 假设2: 给定目标,轨迹分布是单模式;这个短时间是成立的,长时间段可以在目标预测和运动估计之间迭代。

其用2层MLP实现,输出的是每个目标可能的未来轨迹。其训练函数如:

IVvmYnm.png!mobile
  • 轨迹打分和选择

采用最大熵模型打分,即

3a67zyR.png!mobile

其中g函数还是2层MLP建模。而训练损失为预测分数和真值之间的交叉熵,即

RZneyi3.png!mobile

最后是排序选择剔除彼此太近似的轨迹,想法类似于图像检测的NMS。

整个训练损失总和是

ZBZn6f7.png!mobile

除了上述开源数据之外,还有一个室内数据集Pedestrian-at-Intersection dataset (PAID)。一些实验数据如下:


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK