基于深度学习的多目标跟踪：从UMA Tracker出发谈谈SOT类MOT算法

©PaperWeekly 原创 · 作者｜黄飘

学校｜华中科技大学硕士生

研究方向｜多目标跟踪

之前的文章中我们介绍了联合检测和跟踪的多目标跟踪框架，这类框架最大优势在于可以利用优秀的检测器平衡不同观测输入的质量。随之又介绍了端到端的数据关联类算法，这类算法的优势在于可以利用 MOT 数据信息缓解人工提取特征和计算特征距离的弊端。这次我们要介绍的是 基于单目标跟踪（SOT）算法的 MOT 算法 ，这类算法的优缺点可以看我下面的介绍。

jiuMzu2.png!web

前情回顾（FAMNet、DMAN）

1.1 DMAN

nuEbmyQ.png!web

论文标题： Online Multi-Object Tracking with Dual Matching Attention Network

论文来源： ECCV 2018

论文链接： https://arxiv.org/abs/1902.00749

代码链接： https://github.com/jizhu1023/DMAN_MOT

DMAN 算法我不小心放在了数据关联部分，这次我们简单回顾一下（具体可见上次的文章）：

E3uI7bM.png!web

我觉得 DMAN 算法的主要特点在于：

利用 Bi-LSTM 网络实现了观测框与目标轨迹历史特征序列的端到端特征提取与比对；
将基于改进版 ECO 的 SOT 模块嵌入了网络中，其主要利用的是响应图信息，而响应图中包含有目标的定位和分类信息；
在数据关联部分，我们可以注意到存在两个识别部分，作者称之为时空注意力，其中时间注意力就是第一点中的 verfication 任务，而空间注意力就对应图中的identification任务，这里利用 SOT 输出的响应图作为注意力 mask，分别基于特征预测了目标身份信息。

对于第一点，其实通过图就可以明白，是通过对于历史轨迹特征的质量进行自适应评估，并对特征自动融合。而对于第二点，关于 SOT 如何融入网络，可以自行搜索 CFNet 等 SOT 网络。而对于 ECO 算法，作者考虑到相似表观目标中容易出现的 多峰问题 进行了改进：

BVzeeyz.png!web

即将处于目标附近的 hard samples 的惩罚权重变大：

i26BZvj.png!web

1.2 FAMNet

7BbEnqn.png!web

论文标题： FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking

论文来源： ICCV 2019

论文链接： https://arxiv.org/abs/1904.04989

raaiuuy.png!web

FAMNet 的结构我们也介绍了，这里也总结他的特征：

对于相邻帧中的每个目标，利用 Siamese 网络进行单目标跟踪，由此隐式获取到目标的表观和位置信息，并基于响应图进行特征比对；
利用其提出的 R1TA Power Iteration Layer 降低连续多帧数据关联的复杂度，并实现连续多帧的跟踪训练。

IbQFVj6.png!web

STAM

RNZfeib.png!web

论文标题： Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention Mechanism

论文来源： ICCV 2017

论文链接： https://arxiv.org/abs/1708.02843

STAM 算得上是一篇经典的多目标跟踪算法，而且仔细阅读之后还会发现一个亮点。其大致流程如下：

eaMNzeb.png!web

可以简单看出这里面涵盖有运动模型、目标特征提取、目标空间注意力，以及目标轨迹时间注意力等等模块。

UvYneyf.png!web

看完整个流程我惊了，尤其是 ROI Pooled Features 那一部分，比 Tracktor++ 提出得还早。通过将不同目标映射到特征图上进行进一步特征提取和位置回归，只不过作者当时并没有从检测入手，所以效果不突出。

其中运动模型其实就是一个在线更新的带动量的匀速模型：

iayqyuq.png!web

对于空间注意力，作者主要考虑了遮挡问题，通过训练可视度响应图，由此作为特征的 mask，突出前景目标特征：

fUjauab.png!web

对于时间注意力，则是轨迹层面的质量考虑：

raA7Jv2.png!web

其通过 triplet loss 训练，既包含当前帧内的 neg 和 pos，还包含历史帧的：

AZjUB3F.png!web

Q32eqeU.png!web

其中注意力计算如下：

INVvIrv.png!web

对于具体的实验细节，推荐大家去看作者的博士论文《基于深度学习的视频多目标跟踪算法研究》。

ZJfe2i7.png!web

LSST

Zryiy2v.png!web

论文标题： Multi-Object Tracking with Multiple Cues and Switcher-Aware Classification

论文链接： https://arxiv.org/abs/1901.06129

LSST 中作者的出发点也是针对遮挡问题：

ZVfEbeq.png!web

由于遮挡导致轨迹特征出现残缺，甚至身份漂移。而作者的基础跟踪器则是 SiamRPN，因为快而准。。。

2IFFJ36.png!web

最左边就是就 RPN 框架的 SiamRPN 框架，作者称之为短期线索，这部分的质量是通过下面的公式计算的：

qyqEbuA.png!web

而对于长期线索，则自然是 ReID 所提取的表观信息了。作者通过 ResNet18 设计了一个质量评估网络，从而在目标轨迹中选择 K 个最好质量的特征进行比对，当然每个特征间保留了间距：

ZRzqEjf.png!web

这样就得到了 K 组相似度，基于以上的短期和长期线索，作者利用 regularized Newton boosting decision tree 训练了一个分类器，由此进行数据关联。

r2Qbeuv.png!web

JFbIRjv.png!web

KCF

RzuEfer.png!web

论文标题： Online Multi-Object Tracking with Instance-Aware Tracker and Dynamic Model Refreshment

论文来源： WACV 2019

论文链接： https://arxiv.org/abs/1902.08231

此 KCF 并非单目标跟踪中的核相关滤波算法，只是名字巧合罢了（论文里面没说简称，但是 MOT 官网写的 KCF）。我们可以看到这篇论文的流程十分复杂：

VNbU3ur.png!web

整体来看包含了：

综合前/背景相应和SOT设计Instance-aware SOT跟踪器 ：

这两个响应图是直接基于岭回归算法叠加的：

然后利用 KCF 的求解方式对联合模型进行求解。
基于检测的校正 ，即对 SOT 结果和 Detection 信息利用 multicut 进行数据关联，对于这类图模型的构建可以参照我之前写的博客 [7] 。有了目标实际上就有了图节点，那么 SOT 模型就是为边权而服务的：

其中 X 表示目标轨迹，O 表示的是预测的目标位置和观测位置的集合，g 就是上面的联合损失函数。即如果是相邻帧之间的边权，则用 SOT 中的联合损失函数值。如果是上一帧中目标间的边，则设置一个固定值。如果是当前帧节点间的边，则直接使用 IOU 代替。
模型更新

作者考虑到场景中可能存在的噪声信息，导致 SOT 跟踪结果不准，所以通过一个 CNN 网络判断当前 SOT 结果是否需要利用观测信息进行更新，如果需要，则采用观测框。

有意思的是作者采用了 强化学习 的策略在线训练分类器。当观测框比预测框更精准，但是没有更新，那么观测框的特征和预测框的特征会被当作 positive samples。当预测框比观测框更精准，但是却更新了，那么就视为 negtive samples，样本与部分训练集合并组成在线训练集进行更新。特征是通过 ROI Pooling 进行提取的。

当然，如果当前更新的权重并不适用于接下来的跟踪，权重还会恢复如初。
目标的管理

为了保证目标从遮挡状态恢复，作者做了一个强假设，即如果目标因遮挡而丢失，那么在出现的那一帧的数据关联中也没有与之匹配的目标。因此就可以跨帧匹配：

利用时间距离、位置形状、IOU、直方图等信息作为特征，通过 SVM 进行分类判别。

效果如下：

bIjeiaB.png!web

ZJVFFrb.png!web

UMA

qyUNF3V.png!web

论文标题： A Unified Object Motion and Affinity Model for Online Multi-Object Tracking

论文来源： CVPR 2020

论文链接： https://arxiv.org/abs/2003.11291

代码链接： https://github.com/yinjunbo/UMA-MOT

这篇文章实际上跟前面我所介绍的 DMAN 算法很像，都是想利用 SOT 实现表观特征和运动信息的获取，进而实现在线的匹配关联：

JV7vYbb.png!web

整体流程也很相似，那么 UMA Tracker 所基于的单目标跟踪器是 SiamFC：

2uqYZvz.png!web

其中的特征提取都是采用的 AlexNet，从图中可以看到：

对于正样本对则采用 SOT 进行跟踪比对，从而得到 SOT 部分的损失。
对于每个目标样本，还存在一个 embedding 模块，提取了 256 维的特征信息，进而进行 iidentification 的分类任务；
利用 SENet 的机制，实现 verification 任务。

vi2MZbB.png!web

可以看到，这个整体就是基于 SENet 的变种，结合 256 个通道注意力而设计的，可以看到训练得到的特征图可视化效果还不错：

uURbQnY.png!web

其中第 2 行是跟踪任务中的响应图（网络第一行分支），第 3 行是相似度度量任务中的响应图（网络第三行分支），所以 SOT 的任务跟偏向于定位和周围环境信息的提取，而 Affinity 部分更偏向于前景目标的部位。

对于跟踪流程，作者同样考虑了遮挡情况：

vQ3eYnj.png!web

这里作者直接通过 affinity 相似度和 IOU 的变化情况估计了遮挡情况。另外，为了保证表观特征部分的信息更准确，作者利用 ROI Align 模块，将特征图上 SOT 预测出来的位置区域的目标特征单独获取出来作为表观特征的输入。

最后在数据关联部分，作者同样考虑了跟踪轨迹的历史特征，不过使用方式比较简单：

7biYvuE.png!web

通过均匀采样，计算 K 组特征相似度，然后取平均作为最终的相似度。

uA73u2J.png!web

rmYZZrJ.png!web

总结

在 MOT 场景中，由于 Siamese 结构的存在，使得 SOT 任务本身就自带了定位和识别等信息，所以利用 SOT 替代运动模型和表观模型的算法相继涌现。另外，SOT 本身对于观测缺乏的问题有一定的鲁棒性，可以通过区域搜索得到暂时的目标定位信息。

如果 SOT 本身的定位能力强，比如 SiamRPN 这种，甚至都相当于额外做了检测，所以基于 SOT 的算法理论上是可以跟基于检测的框架一较高下的。但问题在于，基于 SOT 的 MOT 目前都是针对每个目标进行一次跟踪，效率方面问题太大了，希望有后续研究可以解决这一点。

参考文献

[1] Zhu J, Yang H, Liu N, et al. Online multi-object tracking with dual matching attention networks[C]. in: Proceedings of the European Conference on Computer Vision (ECCV). 2018. 366-382.

[2] Chu P, Ling H. Famnet: Joint learning of feature, affinity and multi-dimensional assignment for online multiple object tracking[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2019. 6172-6181.

[3] Chu Q, Ouyang W, Li H, et al. Online multi-object tracking using CNN-based single object tracker with spatial-temporal attention mechanism[C]. in: Proceedings of the IEEE International Conference on Computer Vision. 2017. 4836-4845.

[4] Feng W, Hu Z, Wu W, et al. Multi-object tracking with multiple cues and switcher-aware classification[J]. arXiv preprint arXiv:1901.06129, 2019.

[5] Chu P, Fan H, Tan C C, et al. Online multi-object tracking with instance-aware tracker and dynamic model refreshment[C]. in: 2019 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2019. 161-170.

[6] Yin J, Wang W, Meng Q, et al. A Unified Object Motion and Affinity Model for Online Multi-Object Tracking[J]. arXiv preprint arXiv:2003.11291, 2020.

[ 7 ] https://zhuanlan.zhihu.com/p/111397247

f226ru3.png!web

点击以下标题查看更多往期内容：

# 投稿通道 #

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是 最新论文解读 ，也可以是 学习心得 或 技术干货 。我们的目的只有一个，让知识真正流动起来。

:memo: 来稿标准：

• 稿件确系个人 原创作品 ，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

:mailbox_with_mail: 投稿邮箱：

• 投稿邮箱： [email protected]

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

:mag:

现在，在 「知乎」 也能找到我们了

进入知乎首页搜索 「PaperWeekly」

点击 「关注」 订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击 「交流群」 ，小助手将把你带入 PaperWeekly 的交流群里。

feMfiqY.jpg!web

1.1 DMAN

LSST

参考文献

让你的论文被更多人看到

Recommend

你的设计过关吗？用这份大神总结的自查手册看看！

如何通过SEO思维收割各大平台的流量？

Using FastAPI with Django

Introducing RW Community Care! [FREE]

换个角度入门 K8s

毫不创新的「家教机」，竟然给硬件行业上了一课？

Thank you for helping us increase our bandwidth

让天下没有苦逼的运维！试试这个工具吧！

2020年5月12日投资提示 - 几十万集思录用户无眠！很多人或被罚款几百万！！！

New – EC2 M6g Instances, powered by AWS Graviton2

About Joyk