![](/style/images/good.png)
![](/style/images/bad.png)
单阶段6D对象姿势估计
source link: https://mp.weixin.qq.com/s/G0ymlt4WNRA35ciKoTbAbw
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
单阶段6D对象姿势估计
The following article is from 计算机视觉工坊 Author 康斯坦奇
点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达论文地址:在公众号「3D视觉工坊」,后台回复「6D姿态估计」,即可直接下载。摘要: 最新的6D姿态估计框架首先依靠深度网络在3D对象关键点和2D图像位置之间建立对应关系,然后使用基于RANSAC的Perspective-n-Point(PnP)算法的变体。但是,此两阶段过程不是最佳的:首先,它不是端到端可训练的。第二,训练深层网络依赖于替代损失,该损失不会直接反映最终的6D姿态估计任务。在这项工作中,本文介绍了一种直接从对应关系中回归6D姿势的深度架构。它为每个3D关键点输入一组候选对应关系,并说明每个组内对应关系的顺序无关紧要的事实,而各组(即3D关键点)的顺序是固定的。本文的体系结构是通用的,因此可以与现有的对应关系提取网络一起使用,从而生成单阶段6D姿态估计框架。本文的实验表明,这些单阶段框架在准确性和速度方面始终优于两阶段框架。
一、简介
最新的方法遵循两个阶段的范式:首先使用深层网络在3D对象点与其2D图像投影之间建立对应关系, 然后使用基于RANSAC的Perspective-n点(PnP)算法来计算6个位姿参数。这种范例虽然有效,但存在一些弱点。首先,用于训练深度网络的损失函数不会反映真实的目标估计,但会编码替代任务,例如将检测到的图像投影的2D误差最小化。但是,这种误差与姿势精度之间的关系不是一对一的。如图1(a)所示,对于最新框架,具有相同平均准确度的两组对应关系可能导致不同的姿态估计。其次,分别建立对应关系。这无法利用以下事实:知道3D点之一的2D投影的位置会对其他投影的潜在位置施加约束。最后,两阶段过程不是端到端可训练的。二、方法
给定经过校准的相机捕获的RGB图像,本文的目标是同时检测物体并估计其6D姿态。本文假设它们是刚性的,并且可以使用其3D模型。在本节中,本文首先对6D姿态估计问题进行形式化,假设对目标对象上的每个3D关键点都给予2D对应关系优先级,并提出一种从此类输入中产生6D姿态的网络体系结构。该网络如图3所示。然后,本文讨论当这些对应关系是另一个网络的输出时,如何获得单阶段6D姿态估计框架。2.1 密集点位姿估计
让本文假设,对于n个3D对象关键点pi中的每一个,给定3×3摄像机固有参数矩阵K和m个潜在2D对应uik,其中1≤i≤n和1≤j≤m。pi用链接到对象的坐标系表示,如图2(a)所示。对于每个有效的3D到2D对应关系pi↔uik,2.1.1 密集点的属性
本文将所有与特定3D点相关联的2D点都称为一个簇,因为假设用于发现它们的算法是一个很好的算法,它们倾向于围绕3D点投影的真实位置进行聚类,如图1所示。本文的实现选择出于以下考虑:集群排序。聚类中的对应顺序无关紧要,并且不应影响结果。但是,聚类的顺序对应于3D点的顺序,该顺序已给定并固定。集群内部和集群之间的交互。尽管同一群集中的点对应于相同的3D点,但是应该预计每个点的2D位置估计会很吵。因此,该模型需要捕获每个群集内的噪声分布。更重要的是,一个单独的群集无法告诉本文有关姿势的任何信息,并且只能通过捕获多个群集的全局结构来推断最终的姿势。刚性转换。在使用深度网络处理3D点云时,通常希望结果对于刚性变换是不变的。相比之下,在这里,本文希望2D点代表3D点的投影,并且本文从它们中提取的特征应该取决于它们的绝对位置,这对于姿势估计至关重要。2.1.2 网络架构
本文构建了一个简单的网络架构,如图3所示,该架构利用上面讨论的属性从对应簇预测姿势。它包括三个主要模块:具有共享网络参数的本地特征提取模块,单个群集中的特征聚合模块以及由简单的全连接层组成的全局推断模块。2.2单阶段6D对象姿态估计
上面描述的深度网络为本文提供了一种从给定对象的对应簇预测6D姿势的可区分方式。给定输入图像,因此本文仍然需要检测每个对象并建立3D到2D的对应关系。为此,本文使用另一个带有参数Φ的深度回归器f,对于一个对象,本文可以这样写:三、实验
本文将单阶段方法与更传统但最先进的两阶段框架进行比较,首先是综合数据,然后是来自具有挑战性的Ocluded-LINEMOD和YCB-Video的真实数据个数据集。3.1 合成数据
本文使用虚拟校准相机创建合成的3D到2D对应关系,其图像尺寸为640×480,焦距为800,主点位于图像中心。本文将目标对象作为一个单位3D球体,该球体本文随机旋转并且其中心在相机坐标系中表示的间隔[-2,2]x[-2,2]x[4,8]内随机平移 ,如图4所示。3.2 真实数据
本文根据来自两个具有挑战性的数据集(Occluded-LINEMOD 和YCBVideo )的真实数据评估了本文的方法。被遮挡的LINEMOD由8个对象组成,是较旧的LINEMOD数据集的子集。与仅对一个对象每个图像进行注释的LINEMOD不同,闭塞LINEMOD具有多个带注释的对象。这对于评估既执行实例检测又进行姿势估计的方法的评估更有意义。除了杂乱的背景,无纹理的物体以及LINEMOD不断变化的照明条件外,被遮挡的LINEMOD在多个物体实例之间也存在严重的遮挡。由于Occluded-LINEMOD中只有1214张测试图像,而没有明确的训练数据,因此本文基于LINEMOD训练数据来训练本文的网络。YCB视频是更新的,甚至更具挑战性。它具有从YCB数据集中提取的21个对象,并包含来自92个视频序列的约130K真实图像。它带来了OccludedLINEMOD的所有挑战以及更多不同的对象大小,包括几个无纹理的微小对象。数据准备。对于被遮挡的LINEMOD,本文首先使用剪切粘贴合成技术从LINEMOD数据和随机背景数据生成20K图像,并带有4至10个不同的实例 对于每个图像。然后,本文从带纹理的3D网格为每种对象类型生成10K渲染图像。渲染过程中的姿势范围与LINEMOD中的相同,除了以下几点:为了处理遇到对称对象时的姿势歧义,本文在训练过程中根据对象的对称类型将姿势范围限制为子范围,以避免混淆网络。最后,本文的训练数据由具有多个实例的20K合成图像和每个对象只有一个实例的10K渲染图像组成,总共(20 + 10×8)K图像。对于YCB视频,本文遵循类似的步骤。本文使用提供的3D网格模型并根据数据集的姿态统计信息为21个对象中的每一个渲染10K图像。但是,本文不使用剪切粘贴技术来生成具有多个实例的图像,因为在原始的YCB视频图像中已经使用多个对象进行了注释,因此本文直接使用它。训练步骤。对于这两个数据集,本文都将输入图像缩放为416×416分辨率以进行训练和测试。本文使用Adam进行优化,将初始学习率设置为1e-4,并在处理了数据样本总数的50%,75%和90%之后除以10。本文将批量大小设置为8,并依靠通常的数据增强技术,即随机亮度,高斯噪声,平移,缩放以及遮挡。本文通过在线数据增强在5M训练样本上训练网络。3.2.1 遮挡数据及比较结果
如前所述,为证明本文的方法是通用的,本文结合两个对应提取网络SegDriven和PVNet对其进行了测试。表1显示,通过用本文的网络替换原始的基于RANSAC的后处理以将方法转变为单阶段方法,可以在两种情况下提高性能。3.2.2 YCB-Video 结果
表4总结了与PoseCNN ,SegDriven 和PVNet 进行比较的结果。它表明本文的方法在该数据集上也始终优于其他方法。此外,请注意,它的运行速度比PoseCNN快10倍,也比SegDriven和PVNet快2倍。3.3 限制
虽然本文的方法与最先进的对应提取网络结合使用时是准确且快速的,但根据对应关系估算姿势的网络仍不如传统的基于几何的PnP算法准确 当可以通过其他方式获得非常精确的对应关系时,如图6所示。此外,它不能解决通用的PnP问题,因为本文仅针对固定的3D坐标集对其进行了训练。对此进行改进将成为未来工作的重点。四、结论
本文为6D检测和姿态估计引入了一种单阶段方法。它的关键要素是一个小型网络,该网络接受候选3D到2D的对应关系并返回6D姿势。当与最先进的方法相结合来建立对应关系时,它可以通过允许端到端的培训并消除他们通常需要的一些RANSAC风格程序来提高性能。未来的工作将集中在使姿势估计网络更准确和更通用上,以便可以在更广泛的范围内使用它。本文仅做学术分享,如有侵权,请联系删文。下载1在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。下载2在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计汇总等。下载3在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题觉得有用,麻烦给个赞和在看~![640?wx_fmt=gif](https://mmbiz.qpic.cn/mmbiz_gif/gYUsOT36vfpFnEj3CMde0iaOKfGiaAmbfRRPePWld5pUR0niaibYOvNP5cx7nKS5I6180xeya4ZIYJClvHqSpQecqA/640?wx_fmt=gif)
Recommend
About Joyk
Aggregate valuable and interesting links.
Joyk means Joy of geeK