谷歌WAYMO最新方法Target-driveN Trajectory Prediction论文介绍

arXiv上今年8月文章“TNT: Target-driveN Trajectory Prediction“，是关于谷歌WAYMO的轨迹预测方法。被会议CoRL（Conference on Robot Learning）‘2020录取。

TNT是一种基于历史数据（即多代理和环境之间交互）生成目标的轨迹状态序列方法，并基于似然估计得到紧凑的轨迹预测集。不同于以前方法，即基于定义的潜变量并依赖于测试时间的采样来生成各种轨迹。整个方法还是要做端到端的深度学习训练，其性能在开源数据集上（Argoverse、INTERACTION和Stanford Drone等）表现不差甚至优于其他方法。

注：前不久谷歌提出的方法VectorNet，后面有提到。

下图是TNT框架应用于车辆未来轨迹预测任务的示意图，包括三个阶段：（a）目标预测，在所有候选（diamond）中提出一组合理的目标（star）。（b）目标条件运动估计，估计每个选定目标的轨迹（分布），（c）打分和选择，对轨迹假设进行排名，并选择似然估计的最终轨迹预测集。

下图是TNT模型概览。首先将场景上下文编码为模型输入。然后，遵循TNT的核心三个阶段：（a）目标预测，提出初始的M个目标集；（b）目标条件运动估计，估计每个目标的轨迹；（c）打分和选择，对轨迹假设进行排序并输出K个预测轨迹的最终集。

场景上下文进行建

对场景上下文进行建模是轨迹预测中的第一步，以便捕获代理与道路和代理之间的相互作用。 TNT可以使用任何合适的上下文编码器：当高清地图可用时，用最新的分层图神经网络VectorNet来编码上下文。具体来说，折线用于提取HDMap元素（车道，交通标志）和代理轨迹；子图网络用于编码每条折线，其中包含可变数目的向量；然后使用全局图网络对折线之间的交互进行建模。输出是每个建模代理的全局上下文特征。如果场景上下文仅以自上而下（top-down）的图像形式可用，比如ChauffeurNet，则将ConvNet用作上下文编码器。

目标预测

目标预测中，目标定义为代理在一个固定时间段T可能处的位置。未来状态的不确定性分为目标或意图不确定，以及控制不确定。这样概率分布分解为目标条件化以及marginalize，如：

而目标分布建模为一个离散-连续分解形式，如：

其中的函数 f 和 v 可训练，比如2层MLP，输入是目标坐标和场景上下文特征。训练损失函数为：

如图所示，离散目标空间的选择在不同应用中都非常灵活：

在车辆轨迹预测问题中，从高清地图上统一采样车道中心线点，并将其用作目标候选（标记为黄色spades），假设车辆决不会离开车道；针对行人，围绕代理生成一个虚拟网格并将网格点用作目标候选。对每个目标候选，TNT目标预测器产生一个三元组（pai; delta x; delta y）; 回归目标标记为橙色star。与直接回归相比，未来状态建模为离散目标集的最大优势在于，它不会受模式平均化的影响，而这恰恰是阻碍多模式预测的主要因素。

运动估计

这里有两个假设

假设1:未来时间条件独立，避免序列预测；
假设2: 给定目标，轨迹分布是单模式；这个短时间是成立的，长时间段可以在目标预测和运动估计之间迭代。

其用2层MLP实现，输出的是每个目标可能的未来轨迹。其训练函数如：

轨迹打分和选择

采用最大熵模型打分，即

其中g函数还是2层MLP建模。而训练损失为预测分数和真值之间的交叉熵，即

最后是排序选择剔除彼此太近似的轨迹，想法类似于图像检测的NMS。

整个训练损失总和是

除了上述开源数据之外，还有一个室内数据集Pedestrian-at-Intersection dataset (PAID)。一些实验数据如下：

Recommend

从R-CNN到YOLO，2020 图像目标检测算法综述

为什么预训练语言模型 ELMo 是 NLP 的最大进步之一？

万亿级数据应该怎么迁移？

你不知道的typeof string 竟然等于object

java安全编码指南之:线程安全规则

TypeScript：请停止使用 any

为什么有些公司不让用Lombok？

攻击流量超过 300G，遭遇 DDoS 时我们能做些什么？

HTML5入门

基于Loki打造云原生分布式日志系统

About Joyk