8

基于对应点的6D姿态识别

 3 years ago
source link: https://mp.weixin.qq.com/s/asT_1ILLnrLjbtK-ON0aIw
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client


前言

最近读取了一些针对Corresponding-based方法的6D姿态识别paper,在这里分享下思路。

1、AprilTags 3D: Dynamic Fiducial Markers for Robust Pose Estimation in Highly Reflective Environments and Indirect Communication in Swarm Robotics

尽管在实验室条件下,在噪声因素可控的情况下,基准标记可以给出精确的姿态估计,但在野外机器人应用中使用它们仍然是一个挑战。这限制了基准生成器系统,因为它们只在RGB图像空间中工作。因此,图像中的噪声会产生较大的姿态估计误差。在机器人应用中,基准标记主要以其原始和简单的形式使用,如打印纸张中的平面,这种设置对于基本的视觉伺服和增强现实应用来说是足够的,但对于复杂的群体机器人应用来说则是不够的。群体机器人用中设置由多个动态标记(LCD屏幕上显示的标记)组成。本文提出了一种新的方法AprilTags3D,该方法通过在标记检测器中加入一个三维空间,在仅使用RGB传感器的情况下,提高了AprilTags的姿态估计精度。

Image
640?wx_fmt=png
640?wx_fmt=png
640?wx_fmt=png

2、LCD: Learned Cross-Domain Descriptors for 2D-3D Matching(AAAI,代码开源)

本文提出了一种新的方法来学习一个局部跨域描述符,用于二维图像和三维点云匹配。提出的方法是一个双自动编码神经网络,将二维和三维输入映射成共享的潜在空间表示。结果表明,共享嵌入中的跨域局部描述子比在二维和三维域中进行个体训练得到的描述子具有更好的区分性。为了简化训练过程,本文从公开的RGB-D场景中收集了约1:4百万不同照明条件和设置的2D-3D对应关系,构建了一个新的数据集。描述子在三个主要的实验中被评估:2D-3D匹配、跨域检索和稀疏到稠密的深度估计。实验结果证实了该方法的稳健性及其在求解跨域任务时的竞争性能,同时也证明了该方法能够推广到求解单一的二维和三维任务。

640?wx_fmt=png
640?wx_fmt=png
640?wx_fmt=png

3、Segmentation-driven 6D Object Pose Estimation(CVPR2019)

本文提出了一个分割驱动的6D姿态估计框架,其中对象的每个可见部分以2D关键点位置的形式贡献一个局部姿态预测。然后使用预测的置信度将这些候选姿态组合成一组鲁棒的3D-to-2D对应,从中可以获得可靠的姿态估计。在具有挑战性的遮挡LINEMOD和YCBVideo数据集上,本文的性能优于目前的技术水平,达到了SOTA,这证明我们的方法能够很好地处理多个纹理较差的对象之间的遮挡。此外,它还依赖一个足够简单的体系结构来实现实时性能。

640?wx_fmt=png
640?wx_fmt=png
640?wx_fmt=png
640?wx_fmt=png

4、Estimating 6D Pose From Localizing Designated Surface Keypoints

本文提出了一种基于RGB图像的6D位姿估计的精确而有效的方法。该方法的核心是首先在目标对象模型上指定一组表面点作为关键点,然后训练一个关键点检测器(KPD)对其进行定位。最后根据关键点的二维-三维关系,用PnP算法恢复出6D姿态。与基于CNN的最新技术方法不同,这些方法依赖于耗时的后处理过程,本文在姿态预测完成后无需任何改进就可以达到竞争性的精度。同时,在不使用姿态优化的情况下,本文提出的方法在ADD精度方面得到了30%的相对提高。通过选择置信度最高的关键点来恢复6D姿势,成功地处理了严重的遮挡。

640?wx_fmt=png
640?wx_fmt=png
640?wx_fmt=png

5、6-DoF Object Pose from Semantic Keypoints(ICRA)

本文提出了一种从单个RGB图像中估计物体连续六自由度(6-DoF)姿态(3D平移和旋转)的新方法。该方法将卷积网络(convnet)预测的语义关键点与变形形状模型相结合。与之前的工作不同,本文不知道对象是有纹理的还是无纹理的,因为convnet从可用的训练图像数据中学习最佳表示。此外,该方法还可以应用于基于实例和类的姿态恢复。实验结果表明,能够在背景杂乱的情况下,准确地恢复场景中的6自由度物体姿态。

640?wx_fmt=png
640?wx_fmt=png
640?wx_fmt=png
上述内容,如有侵犯版权,请联系作者,会自行删文。

Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK