HybridPose：混合表示下的6D对象姿态估计

Original 康斯坦奇计算机视觉工坊 10/15

点击上方“3D视觉工坊”，选择“星标”干货第一时间送达

论文题目：HybridPose: 6D Object Pose Estimation under Hybrid Representations

论文地址：在公众号「3D视觉工坊」后台，回复「6D对象姿态估计」，即可直接下载。

摘要：本文介绍了HybridPose，这是一种新颖的6D对象姿态估计方法。HybridPose利用混合中间表示在输入图像中表达不同的几何信息，包括关键点，边缘矢量和对称对应关系。与单一表示相比，当一种类型的预测表示不准确时（例如，由于遮挡），本文的混合表示允许位姿回归利用更多不同的特征。HybridPose利用强大的回归模块来过滤预测的中间表示中的异常值。本文通过证明可以通过相同的简单神经网络预测所有中间表示而无需牺牲整体性能来展示HybridPose的鲁棒性。与最新的位姿估计方法相比，HybridPose在运行时间上具有可比性，并且准确性更高。例如，在Occlusion Linemod数据集上，本文的方法实现了30 fps的预测速度，平均ADD（-S）精度为79.2％，比当前的最新方法提高了67.4％。

一、简介

在本文中，本文介绍了HybridPose，它利用多个中间表示来表达输入图像中的几何信息以进行位姿估计。除关键点外，HybridPose还集成了一个预测网络，该网络可以输出相邻关键点之间的边缘矢量，如图1所示。由于大多数对象都具有（部分）反射对称性，因此HybridPose还利用了预测的密集逐像素对应关系，这些对应关系反映了像素之间的基本对称关系。

图1. HybridPose预测关键点，边缘向量和对称性对应。在（a）中，本文显示输入的RGB图像，其中感兴趣的对象（钻孔器）被部分遮挡。在（b）中，红色标记表示预测的2D关键点。在（c）中，边缘向量由所有关键点之间的有效连接图定义。在（d）中，对称对应关系将对象上的每个2D像素连接到其对称对应对象。为了说明的目的，在此示例中，本文仅从5755个预测对象像素中绘制了50个随机样本的对称对应关系。通过将预测与3D模板共同对齐来获得预测姿态（f），这涉及解决非线性优化问题。

二、方法

HybridPose的输入是一个图像I，其中包含一个已知类的对象，该图像由针孔照相机以已知的固有参数拍摄。假设对象类别具有标准坐标系Σ（即3D点云），HybridPose在Σ下输出图像对象的6D相机姿态（RI∈SO（3），tI∈R3），其中RI是旋转组件，而tI是平移组件。

2.1 方法概述

如图2所示，HybridPose由预测模块和位姿回归模块组成。

图2.方法概述。HybridPose由中间表示预测网络和位姿回归模块组成。预测网络将图像作为输入，并输出预测的关键点，边缘矢量和对称对应关系。姿态回归模块由初始化子模块和优化子模块组成。初始化子模块使用预测的中间表示法求解线性系统以获得初始姿态。改进子模块利用GM鲁棒范数进行优化（9），以获得最终的姿态预测。

2.2 混合表示

本节描述了“混合位姿”中使用的三种中间表示形式。

关键点。第一个中间表示由关键点组成，这些关键点已被广泛用于位姿估计。给定输入图像I，本文训练一个神经网络fKθ（I）∈R2×| K |。预测| K |的预定义集合的2D关键点坐标。在本文的实验中，HybridPose使用了称为PVNet的现成模型，该模型是基于关键点的最新姿态估计器，可以采用投票方案来预测可见和不可见的关键点。

边缘。第二个中间表示由沿着预先定义的图的边缘向量组成，显式地模拟每对关键点之间的位移。如图2所示，HybridPose利用简单网络fEφ（I）∈R2×| E |。预测2D图像平面中的边缘矢量，其中| E |表示预定图形中的边缘数。在本文的实验中，E是一个完全连通的图，即| E | = | K |·（|| K | −1）/2。

对称性对应。第三中间表示由反映基础反射对称性的预测像素方向对称性对应组成。在本文的实验中，HybridPose扩展了FlowNet 2.0的网络架构，该架构结合了密集的像素流和PVNet预测的语义掩码。通过在掩膜区域内预测像素方向的流量，可以得出所得的对称性对应关系。与前两种表示相比，对称对应的数量大得多，甚至为被遮挡的对象也提供了丰富的约束。但是，对称对应仅约束对象旋转分量的两个自由度。有必要将对称对应与其他中间表示相结合。

网络设计摘要。在本文的实验中，fKθ（I），fEφ（I）和fSγ均基于ResNet，具体实现细节在4.1节中讨论。可训练参数在除最后一个卷积层之外的所有参数之间共享。因此，引入边缘预测网络fEφ（I）和对称预测网络fSγ的开销微不足道。

2.3 位姿回归

HybridPose的第二个模块将预测的中间表示{K，E，S}作为输入，并为输入图像I输出6D对象姿态RI∈SO（3），tI∈R3。类似于最新的姿态回归方法，HybridPose结合了初始化子模块和优化子模块。两个子模块均利用所有预测元素。优化子模块还利用强大的功能来对预测元素中的异常值进行建模。

在下文中，本文将规范坐标系中的3D关键点坐标表示为pk，1≤k≤| K |。为了使符号整洁，本文将第一个模块的输出表示为，即预测的关键点，边缘向量和对称对应关系为pk∈R2,1≤k≤| K |，ve∈R2,1≤e≤| E |，和（qs，1∈R2，qs，2∈R2），1≤s≤| S |。本文的公式还分别使用了pk，ve，qs，1和qs，2的齐次坐标ˆ pk∈R3，ˆ ve∈R3，ˆ qs，1∈R3和ˆ qs，2∈R3。均质坐标由相机固有矩阵标准化。

初始化子模块。该子模块利用了RI，tI和预测元素之间的约束，并在细微空间中求解Ri，tI，然后以交替优化的方式将其投影到SE（3）。为此，本文为每种类型的预测元素引入以下差异向量：

其中es和et是边e的端点，ve = pet-pes∈R3，而nr∈R3是规范系统中反射对称平面的法线。

HybridPose修改了EPnP的框架以生成初始位姿。通过结合来自预测元素的这三个约束，本文生成Ax = 0形式的线性系统，其中A为矩阵，其维数为（3 | K | +3 | E | + | S |）×12。x = [rT 1，rT 2，rT 3，tT] T 12×1是一个向量，在单个空间中包含旋转和平移参数。为了建模关键点，边缘向量和对称对应之间的相对重要性，本文分别通过超参数αE和αS缩放（2）和（3），以生成A。

根据EPnP，本文将x计算为

640?wx_fmt=png

其中vi是A的第i个最小的右奇异矢量。理想情况下，当预测元素无噪声时，N = 1且x = v1是最佳解决方案。但是，这种策略在给出嘈杂预测的情况下效果不佳。与EPnP相同，本文选择N =4。为计算最佳x，本文通过以下目标函数的交替优化程序对潜变量γi和旋转矩阵R进行优化：

640?wx_fmt=png

其中，Ri∈R3×3是从vi的前9个元素重塑而成的。在获得最佳γi之后，本文将得到的精细变换P4 i = 1γiRi投影为刚性变换。由于篇幅所限，本文将细节推迟到补充材料上。

优化子模块。尽管（5）结合了混合中间表示形式并接受了良好的初始化，但它并不直接对预测元素中的异常值建模。另一个限制来自（1）和（2），它们不能最小化投影误差（即，关于关键点和边缘），而投影误差在基于界标的位姿估计中是有效的。

受益于具有初始对象位姿（Rinit，tinit），优化子模块执行局部优化以优化对象位姿。本文介绍了两个涉及投影误差的差异向量：∀k，e，s，

其中PR，t：R3→R2是从当前姿态（R，t）导出的投影算符。

为了修剪预测元素中的异常值，本文考虑广义的German-Mcclure（或GM）鲁棒函数

640?wx_fmt=png

通过此设置，HybridPose解决了以下用于姿态优化的非线性优化问题：

其中βK，βE和βS是关键点，边缘和对称对应关系的单独的超参数。Σk和Σe表示附加到关键点和边缘预测的协方差信息。kxkA =（xTAx）1 2.当预测的协方差不可用时，本文只需设置Σk=Σe= I2。

从R init和t init开始，微调子模块采用Gauss-Newton方法进行数值优化。

2.4 HybridPose训练

本节介绍如何使用标记的数据集T = {I，（Kgt I，Egt I，Sgt I，（Rgt I，tgt I））}训练HybridPose的预测网络和超参数。使用I，Kgt I，Egt I，Sgt I和（Rgt I，tgt I），本文分别表示RGB图像，标记的关键点，边缘，对称对应关系和真值标定物体位姿。一种流行的策略是端到端训练整个模型，例如使用循环网络对优化过程进行建模，并在对象姿态输出以及中间表示上引入损耗项。但是，本文发现此策略不理想。训练集上预测元素的分布与测试集上的分布不同。即使通过仔细调整对预测元素的监督与最终对象位姿之间的权衡，适合训练数据的位姿回归模型也无法很好地概括测试数据。

初始化子模块。令Rinit I和tinit I为初始化子模块的输出。本文通过解决以下优化问题来获得最优超参数αE和αS：

640?wx_fmt=png

由于超参数的数量很少，并且位姿初始化步骤不接受显式表达式，因此本文使用有限差分方法来计算数值梯度，即通过将梯度拟合到超参数样本周围。当前的解决方案。然后，本文应用回溯线搜索进行优化。

优化子模块。令β= {βK，βE，βS}是该子模块的超参数。对于每个实例（I，（Kgt I，Egt I，Sgt I，（Rgt I，tgt I）））∈Tval，将（9）中的目标函数表示为fI（c，β），其中c =（ cT，cT）T∈R6是RI和tI的局部参数化，即RI = exp（c×）Rgt I，tI = tgt I + c。

优化模块解决了无约束的优化问题，其最佳解决方案由其临界点和临界点周围的损耗表面决定。本文考虑两个简单的目标。第一个目标力∂f/∂c*（0，β）≈0，换句话说，真值标定大约是一个临界点。第二个目标最小化条件数κ（∂2f/∂2c*（0，β））=λmax∂2f/∂2c（0，β）/λmin∂2f/∂2c（0，β）。该目标使每个最优解周围的损失面规则化，从而促进了fI（c，β）的大收敛半径。通过此设置，本文制定了以下目标函数来优化β：

640?wx_fmt=png

其中µ设置为10-4。然后将（10）中使用的相同策略应用于优化（11）。

三、实验评估

本节介绍了对所提出方法的实验评估。第4.1节介绍了实验设置。第4.2节定量和定性比较了HybridPose和其他6D姿态估计方法。第4.3节提出了一项消融研究，以研究对称对应，边缘向量和修饰子模块的有效性。

3.1 实验设置

数据集。本文考虑了在6D位姿估计问题中广泛使用的两个流行的基准数据集，即Linemod和Occlusion Linemod。输出张量中的第一个通道是二进制分割掩码M。如果M（x，y）= 1，则（x，y）对应于输入图像I中感兴趣对象上的像素。分割掩码为使用交叉熵损失进行训练。

第二个2 | K | 输出张量中的通道给出所有| K |的x和y分量关键点。应用基于投票的关键点定位方案，以从该2 | K |通道张量和分割掩码M中提取2D关键点的坐标。

下一个2 | E | 输出张量中的通道给出所有| E |的x和y分量边缘，本文将其表示为Edge。i（0≤i <| E |）是边缘的索引。然后

640?wx_fmt=png

是一组包含第i个边缘向量的逐像素预测的2元组，其均值被提取为预测边缘。

输出张量中的最后2个通道定义对称对应关系的x和y分量。本文将此对称对应关系的2通道“映射”表示为Sym。令（x，y）为输入图像中感兴趣对象上的像素，即M（x，y）=1。假设∆x = Sym（0，x，y）且∆y = Sym（1，x ，y），本文认为（x，y）和（x + ∆x，y + ∆y）关于反射对称平面是对称的。

度量标准。本文使用两个指标来评估HybridPose的性能：

1. ADD（-S）首先计算分别由预测姿态和真值标定姿态变换的两个点集之间的距离，然后提取平均距离。当对象具有对称位姿歧义性时，将从两个变换后的集合之间的最近点计算平均距离。ADD（-S）精度定义为计算出的平均距离小于模型直径的10％的示例的百分比。

2.在消融研究中，本文计算并报告角旋转误差|| log（RT gtRI）2 ||。预测姿态（RI，tI）与真值标定姿态（Rgt，tgt）之间的相对平移误差ktI-tgtk d，其中d为物体直径。

3.2 结果分析

如表1，表2和图3所示，HybridPose可实现准确的位姿估计。在Linemod和遮挡Linemod上，HybridPose的平均ADD（-S）准确度分别为94.5和79.2。Linemod上的结果优于所有其他方法，除了一种从中间表示回归姿态的最新方法。Occlusion-Linemod的结果优于所有最新方法。

图3.位姿回归结果。

表1.定量评估：Linemod上的ADD（-S）准确性

表2.定量评估：遮挡linemod数据集的ADD（-S）准确性

Linemod上的基线比较。HybridPose优于PVNet ，PVNet是本文用来预测关键点的骨干模型。改进在所有对象类上都是一致的，这表明与单一中间表示相比，使用混合具有明显的优势。HybridPose在对抗DPOD方面显示出竞争性结果，在五个对象类上获胜。DPOD在此特定数据集上的优势来自数据扩充和显式建模的输入和投影图像之间密集的对应关系，bothof可以满足不阻塞对象的情况。详细的分析表明，HybridPose表现出次优性能的对象类别是Linemod中最小的对象。这表明本文的流水线中使用的基于像素的描述符受图像分辨率的限制。

Occlusion-Linemod的基线比较。HybridPose大大优于所有基线方法。就ADD（-S）精度而言，本文的方法将PVNet从40.8提高到79.2，提高了94.1％。这种增强功能清楚地显示了HybridPose在被遮挡对象上的优势，其中看不见的关键点的预测可能很嘈杂，可见的关键点可能无法单独为位姿回归提供足够的约束。HybridPose还优于Occlusion Linemod上最新的位姿估计器DPOD 67.4％。一种解释是基于DPOD的基于渲染的方法在被遮挡的对象上效果较差，这是由于在数据扩充和对应计算中难以对遮挡进行建模。

运行时间。在配备16核Intel®Xeon®E5-2637 CPU和GeForce GTX 1080 GPU的台式机上，HybridPose花费0.6秒来预测中间表示，花费0.4秒来回归位姿。假设批大小为30，则平均处理速度为每秒30帧，从而可以进行实时分析。

3.3 消融实验

本文继续进行消融研究。表3总结了使用不同的预测中间表示形式的HybridPose的性能。由于Linemod上不同方法的性能接近饱和，因此本文在此处进行的消融研究基于Occlusion Linemod，它清楚地揭示了不同预测元素对位姿优化的影响。Linemod的消融研究推迟到供应材料。

表3：具有不同中间表示形式的定性评估。

关键点。作为基线方法，本文首先仅通过利用关键点信息来估计对象的位姿。如表3所示，平均绝对旋转误差为1.648度，平均相对平移误差为0.100。

关键点和对称性。将对称对应关系添加到关键点会导致旋转组件获得明显的性能提升。相对性能提升为3.52％，并且在所有对象类别中这种改善几乎是一致的。一致的改进清楚地表明了对称对应的有效性。另一方面，使用关键点和使用关键点+对称性的转换误差几乎保持不变。一种解释是对称对应只约束三个旋转参数的两个自由度，而对平移参数没有约束。

完整模型。将边缘向量添加到关键点和对称对应关系会在旋转和平移估计中显着提高性能。旋转和平移的相对性能提升分别为25.85％和44.12％。一种解释是，边缘矢量在平移和旋转上都提供了更多的约束。与关键点相比，边缘向量表示平移，因为它表示相邻关键点的位移，并提供了更多的回归信息，因此对平移提供了更多约束。结果，翻译错误显着降低。与仅对旋转提供2个约束的对称对应相比，边缘矢量在旋转参数上约束3个自由度，从而提高了旋转估计的性能。此外，改进的旋转估计有助于改进子模块中的GM鲁棒功能，以识别关键点预测中的异常值。

四、总结和未来工作

在本文中，本文介绍了HybridPose，这是一种利用关键点，边缘向量和对称对应关系的6D姿态估计方法。实验表明，HybridPose具有实时预测功能，并且在准确性方面优于当前的最新姿态估计方法。HybridPose对遮挡和极端位姿具有鲁棒性。将来，本文计划将HybridPose扩展为包括更多的中间表示形式，例如形状基元，法线和平面。未来工作的另一个可能方向是在不同表示形式之间加强一致性，这是网络培训中的自我监督损失。

本文仅做学术分享，如有侵权，请联系删文。下载1在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。下载2在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计汇总等。下载3在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

640?wx_fmt=jpeg

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

HybridPose：混合表示下的6D对象姿态估计

HybridPose：混合表示下的6D对象姿态估计

一、简介